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彭 靖 田 ， 才 云 科技 技术 总 监 ， 谷 歌 机 器 学 
习 开发 专家 (ML GDE ) ，Kubeflow Core 
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曾 一 度 成 为 TensorFlow 社 区 全 球 前 40 的 贡 
献 者 。 加 州 大 学 圣迭戈 分 校 访问 学 者 ， 毕 
业 于 浙江 大 学 符 可 杭 学 院 求 是 科学 班 。 曾 
为 华为 深度 学 习 团 队 核 心 成 员 ， 主 要 参与 
华为 深度 学 习 平 台 的 设计 和 研发 工作 。 


林 健 ， 华 为 深度 学 习 团 队 系统 工程 师 。 在 中 
科 院 计算 所 取得 博士 学 位 ， 并 在 美国 俄亥俄 州 
立 大 学 做 过 博士 后 研究 。 长 期 从 事 系统 软件 研 
发 ， 工 作 涉及 高 性 能 计算 与 分 布 式 系统 ， 爱 好 
开源 软件 与 人 工 智能 。 曾 参与 开发 CNGrid 
GOS、MVAPICH 等 工业 级 软件 ， 并 合作 创 
建 LingCloud、DataMPI 等 开源 项 目 。 


和 白 小 龙 ， 华 为 公司 深度 学 习 云 服务 的 技术 
负责 人 ， 主 要 负责 深度 学 习 平 台 、 模 型 和 
算法 的 研发 。 长 期 从 事 信 号 、 图 像 处 理 和 
机 器 学 习 研 究 ， 于 2015 年 6 月 毕业 于 浙江 
大 学 并 取得 工学 博士 学 位 ， 曾 获 教育 部 博 
士 生 学 术 新 人 奖 。 
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E 实 践 等 方面 深入 剖析 了 TensorFlow。 书 


中 首先 介绍 了 TensorFlow 设计 目标 、 基 本 架构 、 环境 准备 和 基础 概念 ， 接 着 重点 介绍 了 以 数据 流 图 为 核心 
的 机 器 学 习 编 程 框架 的 设计 原则 与 核心 实现 ， 紧 接着 还 将 TensorFlow 与 深度 学 习 相 结合 合 ， 从 理论 基础 和 程 
序 实现 这 两 个 方面 系统 介绍 了 CNN、GAN 和 RNN 等 经 典 模型 ， 


通信 原理 和 数据 流 图 计算 的 原理 与 实现 ， 
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序 二 


人 工 智能 迎 来 了 继 20 世纪 90 年 代 以 来 的 又 一 次 大 发 展 , 人 工 智能 和 深度 学 习 无 疑 是 近年 来 
最 受 追 捧 的 热点 。2016 年 和 2017 年 AlphaGo 两 次 分 别 战胜 韩国 和 中 国 围 棋 国 手 ， 更 是 让 人 工 智 
能 成 为 街头 埠 尾 的 热 谈 。 为 什么 人 工 智能 在 经 历 了 两 起 两 落后 再 一 次 迎 来 了 复兴 ? 我 认为 , 这 一 
次 的 爆发 主要 由 理论 、 应 用 、 硬 件 和 软件 四 个 方面 的 原因 促成 的 ， 貌 似 偶 然 实 则 必然 。 


Geoffrey Hinton 等 人 在 2006 年 发 现 了 训练 高 层 神经 网 络 的 有 效 算法 ， 为 深度 学 习 的 研究 打 
开 了 新 局 面 ,这 也 是 人 工 智 能 得 以 重 燃 的 导火线 ,经 过 后 续 研 究 人 员 的 努力 ,尤其 是 CNN 和 RNN 
的 出 现 , 深度 学 习 、 神 经 网 络 方法 在 图 像 和 语音 识别 方面 显示 出 非常 好 的 效果 ,大 大 超越 之 前 的 
理论 和 方法 ， 其 至 能 够 突破 人 类 极限 。 与 计算 机 视觉 、 机 器 人 、 自 然 语 言 理解 、 信 息 检索 等 技 
术 相 结合 ,深度 学 习 的 应 用 也 从 单纯 的 图 像 和 语音 识别 扩展 到 自动 驾驶 、 图 像 增 强 与 风格 替换 、 
文本 语音 间 转 换 和 推荐 系统 等 。 使 用 深度 学 习 技 术 的 应 用 和 初创 企业 如 雨后春笋 般 冒 了 出 来 。 尤 
其 需要 指出 的 是 ,互联 网 和 大 数据 的 广泛 应 用 是 深度 学 习 发 展 的 必要 条 件 。 一 般 而 言 ， 数 据 量 越 
大 且 数 据 质量 越 高 , 由 深度 学 习 训 练 出 来 的 模型 精度 也 就 越 好 。 计 算 机 硬件 的 发 展 也 直接 推动 了 
深度 学 习 的 发 展 。GPU 和 其 他 专用 加 速 器 件 的 出 现 ， 大 大 提高 了 深度 学 习 的 计算 效率 。 在 语音 
识别 场景 下 ，GPU 可 将 数 十 亿 样 本 的 训练 时 间 从 数 年 缩短 到 数 天 。 而 专用 的 ASIC 加 速 芯片 比 
GPU 的 能 效 更 有 一 个 数量 级 以 上 的 提升 ， 也 让 深度 学 习 从 服务 器 端 走 向 手机 端 ， 进 一 步 拓展 了 
其 应 用 范围 。 


开放 的 软件 生态 和 易 用 的 软件 形态 是 形成 人 工 智 能 和 深度 学 习 产 业 链 至 关 重 要 的 两 个 方面 。 
没有 软件 的 支撑 ,理论 很 难 与 应 用 相 结 合 ， 新 硬件 也 很 难为 应 用 提速 。 从 大 数据 软件 的 发 展 历 程 
可 以 想见 ， 如 果 没 有 开源 的 Hadoop 生态 系统 ， 以 及 受 其 设计 思想 影响 的 新 型 大 规模 并 行 处 理 数 
据 库 系统 ， 我 们 现在 可 能 还 在 为 如 何 管理 和 处 理 PB 乃至 EB 级 的 数据 发 秋 。 开 源 TensorFlow 的 
出 现 解决 了 类 似 的 问题 , 一 下 子 拉 近 了 深度 学 习 理论 与 实际 应 用 的 距离 。 同 时 ，TensorFlow 也 具 
备 迈 问 成 功 生 态 系 统 的 必要 条 件 ， 即 差异 化 的 软件 功能 、 刚 需 的 典型 应 用 和 活跃 的 社区 支持 ,发 
展 前 景 可 期 。 但 是 ， 原 生 TensorFlow 的 软件 形态 尚 不 足以 支持 深度 学 习 的 全 流程 生产 化 应 用 ， 
欠缺 诸如 数据 管理 和 预 处 理 , 模型 训练 、 管 理 和 运行 , 资源 管理 、 任务 调度 和 运行 时 监控 等 能 力 ， 
导致 最 终 用 户 形成 生产 力 的 成 本 过 高 。 深 度 学 习 是 计算 密集 型 重 资产 类 应 用 , 如 果 有 能 够 提供 异 
构 高 性 能 计算 资源 并 能 够 集成 上 述 平台 化 功能 的 深度 学 习 公 有 云 服 务 ， 可 降低 TensorFlow 的 使 
用 门槛 并 提升 用 户 体验 ， 客 观 上 会 与 开源 效应 受 加 ， 起 到 加 速 产业 发 展 的 作用 。 


2 序 一 


很 高 兴 能 够 在 这 个 时 候 看 到 一 本 讲述 如 何 使 用 TensorFlow 的 专业 图 书 。 作 者 是 深 说 计算 机 
系统 之 道 的 一 线 工 程 师 ,， 带 给 读者 的 是 基于 实战 经 验 的 理解 。 非 常 难得 的 是 , 本 书 除了 讲解 如 何 
使 用 TensorFlow, 还 加 入 了 对 系统 设计 原理 方面 的 剖析 , 有 助 于 读者 做 针对 性 的 应 用 和 系统 优化 。 
相信 本 书 对 从 事 深度 学 习 方 面 研究 和 开发 的 读者 定 会 有 所 神 益 。 


查 礼 
中 国 科学 院 计算 技 术 研 究 所 副 研 究 员 
中 国 大 数据 技术 大 会 (BDTC ) 发 起 人 
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如 果 说 要 评选 出 一 个 在 过 去 一 年 中 学 术 界 和 产业 界 最 热门 的 词汇 , 无 疑 非 “ 人 工 知 能 ” 英 属 。 
作为 新 一 轮 产业 变革 的 核心 驱动 力 , 人 工 智能 正 重 构 生 产 、 分 配 、 交 换 、 消 费 等 经 济 活动 各 环节 ， 
形成 从 宏观 到 微观 各 领域 的 智能 化 新 需求 、 新 产品 、 新 技术 、 新 业态 ， 引 发 经 济 结构 重大 演化 ， 
实现 社会 生产 力 的 整体 跃升 。 


人 工 智能 系统 的 智能 有 三 种 来 源 ,一 种 是 依靠 人 类 设计 者 的 知识 输入 ,为 系统 建立 人 工 特 征 、 
知识 库 和 推理 机 制 , 传统 意义 上 的 专家 系统 属于 这 一 范畴 。 二 是 通过 数据 驱动 的 归纳 式 学 习 ， 近 
年 来 大 火 的 深度 学 习 即 属于 这 一 类 。 与 依赖 于 人 工 经 验 、 通 过 手工 构建 的 知识 特征 不 同 , 深度 学 
习 以 端 到 端的 方式 进行 特征 学 习 ， 其 基本 动机 在 于 构建 多 层 网 络 来 学 习 隐 含 在 数据 内 部 的 关系 ， 
从 而 使 学 习 得 到 的 特征 具有 更 强 、 更 泛 化 的 表达 能 力 。 三 是 智能 体 通过 与 环境 交互 ， 学 习 经 验 和 
知识 并 更 新 知识 表示 。 近 年 来 ， 以 深度 学 习 为 代表 的 数据 驱动 方法 在 图 像 识 别 、 语 音 识 别 、 机 器 
翻译 、 自 然 语 言 理解 等 任务 中 取得 了 一 系列 突破 。 人 脸 识 别 、 自 然 语言 理解 在 一 系列 国际 评测 中 
展示 了 超越 人 类 能 力 的 水 平 ， 语 言 识别 和 机 器 翻译 也 达到 了 一 个 前 所 未 有 的 高 度 。 


在 我 看 来 , 各 行 各 业 还 会 在 相当 长 的 一 段 时 间 内 享受 到 基于 大 数据 的 深度 学 习 红利 。 将 深度 
学 习 红 利 释 放 到 读者 所 在 的 行业 是 提升 行业 智能 水 平 的 一 条 捷径 。 而 要 做 到 这 一 点 , 核心 关键 在 
于 要 降低 大 数据 深度 学 习 技术 的 使 用 门槛 。 要 使 看 起 来 高 深 的 深度 学 习 技术 , 早日 达到 “旧时 王 
谢 堂 前 燕 ， 飞 入 寻常 百姓 家 ”的 程度 ， 开 源 软 件 生 态 社区 会 起 到 巨大 的 推动 作用 ，TensorFlow 则 
无 疑 正 是 在 这 方面 的 佼佼 者 。 深 度 学 习 对 于 张 量 计算 性 能 、 算 子 灵活 性 、 自 动 微 分 能 力 、 分 布 式 
训练 、 自 动 调 参数 、 可 视 化 和 端 侧 部 署 等 都 有 很 强 的 诉求 ， 而 TensorFlow 的 设计 也 充分 考虑 到 
了 这 些 因素 ， 这 使 得 它 成 为 了 当前 业界 很 流行 的 一 个 深度 学 习 引 擎 。 


TensorFlow 还 是 一 个 较 新 的 技术 ， 但 是 发 展 极为 迅猛 ， 这 时 候 出 现 一 本 深入 浅 出 讲解 
TensorFlow 理论 与 应 用 的 图 书 , 对 于 希望 学 习 和 应 用 大 数据 深度 学 习 技 术 的 广大 读者 而 言 , 诚 “ 如 
大 旱 之 望 云 需 ”。 本 书 理 论 与 实践 并 重 ， 理 论 上 讲 清楚 了 一 些 本 质 的 东西 ， 并 加 入 了 作者 对 系统 
设计 原理 方面 的 深刻 理解 ， 进 而 通过 实际 案例 ， 引 导读 者 掌握 针对 性 的 系统 优化 的 技能 。 

本 书 第 一 作者 是 我 的 学 生 ，2012 年 和 人 学 时 进入 了 浙大 计算 机 专业 的 尖子 班 “ 求 是 科学 班 ”， 


我 担任 了 他 们 这 个 班 的 班主 任 。 他 不 仅 品 学 兼 优 ， 而 且 作为 班 上 的 团 支 书 ， 帮 我 这 个 不 太 称 职 的 
班主 任 做 了 很 多 班级 工作 。 在 我 心目 中 ,他 依然 是 入 学 时 的 青 涩 模样 ,转眼 间 却 已 成 为 开源 软件 
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界 的 技术 翘楚 ， 作 为 老师 ， 最 欣 奈 的 莫 过 于 此 了 吧 。 是 为 序 。 


陈刚 
教育 部 “长 江 学 者 ”特聘 教授 
浙江 大 学 计算 机 学 院 院 长 


ll 


前 


缘起 


2016 年 的 某 个 中 午 ， 我 在 知 乎 上 回答 了 名 为 “如 何 高 效 学 习 TensorFlow 代码 ?” ”的 问题 ， 
其 中 简单 介绍 了 我 在 TensorFlow 开源 社区 的 贡献 ， 以 及 TensorFlow 的 学 习 路 线 和 方法 。 此 回答 
引起 了 一 些 圈 内 人 的 共鸣 。 人 民 邮 电 出 版 社 图 灵 公 司 的 编辑 也 在 第 一 时 间 找 到 我 , 希望 我 能 够 写 
一 本 TensorFlow 相关 的 图 书 。 于 是 , 便 有 了 你 手中 的 这 本 书 。 


为 什么 写本 书 


在 ImageNet 的 带动 下 ， 深 度 学 习 的 研究 热潮 已 席卷 全 球 。 随 着 AlphaGo 的 横 空 出 世 ， 资 本 
市 场 对 人 工 智能 的 产业 化 也 表现 出 了 空前 的 兴趣 。2017 年 7 月 , 《国务 院 关 于 印发 新 一 代 人 工 智 
能 发 展 规划 的 通知 》 的 出 台 , 标志 着 国家 层面 对 人 工 智能 发 展 的 高 度 重视 ,明确 了 我 国 新 一 代 人 
工 智 能 发 展 的 战略 目标 。 未 来 10 年 ， 我 们 将 见证 人 工 智 能 全 面 升级 改造 传统 行业 。 在 这 场 深刻 
变革 中 ，TensorFlow 将 进发 出 巨大 的 能 量 。 

TensorFlow 推出 短 短 一 个 月 ， 就 成 为 了 机 需 学 习 和 深度 学 习 项 目 中 最 受 欢 迎 的 开源 框架 。 究 
其 原因 , 离 不 开 Google 在 人 工 智 能 与 数据 处 理 领 域 的 深厚 积淀 及 其 在 业界 的 强大 号 召 力 。TensorFlow 
自 2015 年 11 月 开源 以 来 ， 已 经 发 布 了 30 多 个 版 本 。 尽 管 TensorFlow 整个 生态 系统 是 开源 的 ， 
但 由 于 它 版 本 升级 过 快 ， 且 算 子 种 类 众多 ,大 部 分 公司 , 尤其 是 一 些 中 小 型 或 创业 公司 ， 难 以 在 
有 限 的 时 间 内 快速 掌握 TensorFlow 的 设计 思想 和 基本 原理 。TensorFlow 开源 的 PS-worker 分 布 式 
架构 也 在 快速 迭代 ， 与 其 内 部 基于 Borg 调度 的 分 布 式 架构 并 不 相同 。 自 TensorFlow 开源 以 来 ， 
不 断 有 人 撰写 图 书 或 博客 解释 其 各 组 件 的 实现 与 原理 。 但 遗憾 的 是 ， 能 够 深入 剖析 TensorFlow 
内 部 实现 细节 与 设计 思想 的 资料 少 之 又 少 ， 而 本 书 则 尝试 弥补 这 一 缺憾 。 


本 书 以 TensorFlow 1.2 为 基础 ， 从 基本 概念 、 内 部 实现 和 最 佳 实践 等 方面 深入 剖析 了 
TensorFlow。 书 中 重点 阐述 了 以 数据 流 图 为 核心 的 机 器 学 习 编 程 框 架 的 设计 原则 与 核心 实现 ,并 
日 介绍 了 TensorFlow 生态 系统 中 的 两 大 重要 工具 : TensorBoard 可 视 化 工具 与 TensorFlow Serving 
模型 托管 工具 。 同 时 ， 本 书 还 将 TensorFlow 与 深度 学 习 相 结合 ， 从 理论 基础 和 程序 实现 这 两 个 
方面 系统 介绍 了 卷 积 神经 网 络 (CNN ) 、 生 成 对 抗 网 络 (GAN ) 和 循环 神经 网 络 (RNN ) 等 经 
上 典 模型 。 本 书 不 仅 由 浅 入 深 地 全 面 介绍 了 TensorFlow 的 使 用 方法 ， 而 且 结 合 源 代码 进行 了 深入 


剖析 ， 使 读者 可 以 快速 、 系 统 地 学 习 TensorFlow 的 架构 设计 与 实现 原理 。 


读者 对 象 

本 书 的 读者 主要 包含 以 下 人 员 。 

口 TensorFlow 二 次 开发 人 员 。 由 于 在 高 效 性 、 多 平台 、 多 语言 、 稳 定性 等 方面 的 诸多 优 
点 ，TensorFlow 已 被 国内 外 越 来 越 多 的 公司 采用 并 部 署 到 生产 环境 。 而 为 了 解决 特定 场 
景 下 的 特定 问题 ， 大 部 分 公司 选择 在 开源 TensorFlow 的 基础 上 进行 二 次 开发 。 通 过 这 本 
书 ， 这 部 分 人 员 可 以 深入 而 又 全 面 地 了 解 TensorFlow 的 设计 原则 和 实现 细节 ， 这 是 修改 
TensorFlow 内 核 的 前 提 。 

口 数据 科学 家 和 算法 工程 师 。 如 果 要 使 用 TensorFlow 解决 生产 和 生活 中 的 实际 问题 ， 仅 掌 

握 TensorFlow 基本 使 用 方法 是 远 远 不 够 的 ， 还 必须 对 TensorFlow 的 设计 理念 、 架 构 和 运 
作 机 制 有 一 定 了 解 。 尤 其 是 对 于 分 布 式 训练 任务 ， 更 需要 深入 了 解 TensorFlow 分 布 式 的 
架构 设计 与 多 种 并 行 模 式 的 实现 原理 。 对 于 这 部 分 读者 来 说 ， 本 书 将 带领 他 们 走 入 
TensorFlow 架构 师 的 内 心 世 界 ， 使 其 系统 、 深 入 地 理解 TensorFlow 和 数据 流 图 ， 提 高 开 
发 水 平 ， 从 而 编写 出 更 加 高 效 的 深度 学 习 和 机 器 学 习 模型 。 

口 人 工 智 能 方向 的 研究 生 。 对 于 一 名 人 工 智能 专业 的 研究 生来 说 ， 除 了 需要 具备 扎实 的 人 
工 智 能 理论 功底 外 ， 还 应 当 熟 练 掌握 一 种 算法 模型 编程 框架 ， 才 能 将 研究 课题 中 的 问题 
快速 落实 到 实际 的 代码 上 来 。 而 TensorFlow 便 是 当下 最 受 欢 迎 的 机 器 学 习 和 深度 学 习 框 
架 。 通 过 阅读 本 书 ， 人 工 智 能 方向 的 研究 生 可 以 全 面 提升 复 现 论文 实验 结果 和 开发 全 新 
模型 的 效率 ， 并 深入 理解 TensorFlow 的 设计 思想 和 实现 细节 。 

口 开源 软件 爱好 者 。TensorFlow 是 全 世界 最 受 欢 迎 的 开源 机 器 学 习 和 深度 学 习 框 架 ， 它 在 
设计 和 实现 过 程 中 参考 了 Google 第 一 代 分 布 式 机 器 学 习 框 架 DistBelief 的 实践 经 验 ， 同 
时 又 加 入 了 很 多 值得 学 习 的 创新 。 本 书 分 析 TensorFlow 架构 设计 和 实现 原理 的 方式 也 许 
值得 许多 开源 软件 爱好 者 学 习 和 借鉴 ， 这 部 分 读者 不 仅 能 够 领略 到 开源 软件 的 优秀 设 
计 ， 还 可 以 掌握 分 析 开 源 软件 源 代码 的 方法 和 技巧 ， 从 而 进一步 提高 使 用 开源 软件 的 效 
率 和 质量 。 


如 何 阅 读本 书 
本 书 分 为 五 大 部 分 (不 包括 附录 ) 。 
第 一 部 分 为 基础 篇 (第 1~3 章 ) ， 简单 介 绍 了 TensorFlow 设计 目标 、 基 本 架构 、 环 境 准 备 


和 基础 概念 ， 包 括 数据 流 图 的 设计 与 使 用 ， 以 及 TensorFlow 运行 环境 和 训练 机 制 ， 帮 助 读 者 快 
速 入 门 TensorFlow， 迅 速 上 手 使 用 。 


第 二 部 分 为 关键 模块 篇 (第 4~7 章 ) ， 着 重 讲解 了 使 用 TensorFlow 端 到 端 解决 人 工 智能 问 
题 涉及 的 关键 模块 ,包括 数据 处 理 、 编 程 框 架 、 可 视 化 工具 和 模型 托管 工具 ,帮助 读者 进一步 提 


升 开发 效率 ， 快 速 落地 模型 应 用 


A 


第 三 部 分 为 算法 模型 篇 (第 8 ~ 11 章 ) , 在 读者 熟练 掌握 TensorFlow 后 ,该 部 分 将 深度 学 习 
与 TensorFlow 有 机 结合 ， 系 统 介 绍 了 深度 学 习 的 发 展 历 史 与 应 用 场景 ， 并 结合 理论 与 代码 实现 
深入 讲解 了 CNN、GAN 和 RNN 等 经 典 模型 。 


A 


第 四 部 分 为 核心 揭秘 篇 (第 12 ~ 14 章 ) ,深入 剖析 了 TensorFlow 运行 时 核心 、 通 信和 原理 和 
数据 流 图 计算 的 原理 与 实现 ， 聚 焦 C++ 核心 层 的 揭秘 ， 帮 助 读 者 进一步 理解 TensorFlow 底层 的 
设计 思想 与 实现 细节 ，TensorFlow 二 次 开发 人 员 需 重点 关注 这 部 分 内 容 。 


A 


第 五 部 分 为 生态 发 展 篇 (第 15 章 ) ， 全 面 介 绍 了 TensorFlow 生态 系统 发 展 ， 并 重点 介绍 了 
Keras 深度 学 习 算 法 库 , 以 及 TensorFlow 与 云 原 生 社区 Kubernetes 生 态 的 结合 、 与 大 数据 社区 Spark 
生态 的 结合 ， 并 介绍 了 TensorFlow 通信 优化 技术 、TPU 及 NNVM 模块 化 深度 学 习 技术 ,帮助 读 
者 进一步 全 面 了 解 深 度 学 习 生 态 发 展 的 现状 。 
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TensorFlow 系统 概述 


人 工 智 能 和 深度 学 习 的 热潮 将 TensorFlow 推 向 了 很 高 的 地 位 ， 媒 体 的 追捧 和 业界 的 宣传 也 
为 这 一 源 自 Google 的 开源 软件 增添 了 传奇 的 色彩 。 对 于 技术 从 业者 或 爱好 者 而 言 ， 我 们 初 识 
TensorFlow 时 有 必要 拨 开 表象 看 本 质 。 本 章 作为 引子 , 首先 从 技术 视角 概括 性 地 介绍 TensorFlow 
的 产生 背景 、 独 特价 值 、 版 本 变迁 ， 以 及 它 与 其 他 主流 深度 学 习 框 架 的 异同 。 同 时 ， 本 章 从 灵活 
通用 性 、 异 构 支 持 性 和 性 能 高 效 性 三 个 视角 解析 TensorFlow 的 设计 目标 ， 展 示 TensorFlow 作为 
一 款 兼 具 深 度 学 习 库 、 人 工 智能 引擎 和 基础 平台 软件 身份 的 开源 产品 的 优势 所 在 。 最 后 ,我 们 将 
简单 介绍 TensorFlow 的 工作 形态 和 组 件 结构 ， 帮 助 读者 快速 建立 对 TensorFlow 软件 架构 的 第 一 
印象 。 


当今 ,人 工 智 能 领域 最 受 欢迎 的 深度 学 习 和 机 器 学 习 框架 非 Google 开源 的 TensorFlow 莫 属 。 
本 节 我 们 将 依次 介绍 TensorFlow 的 产生 背景 、 独 特价 值 和 版 本 变迁 ， 并 横向 对 比 目 前 主流 机 器 
学 习 和 深度 学 习 框 架 各 自 的 特点 和 优 劣 。 


1.1.1 产生 背景 


随 着 近年 来 深度 学 习 模 型 在 图 像 、 视 觉 和 语音 领域 不 断 取得 突破 ， 相 关 研 究 热潮 持续 高 涨 ， 
开源 深度 学 习 框架 出 现 百花 齐 放 之 势 ， 其 中 具有 代表 性 的 框架 包括 XGBoost、Theano 、Torch 、 
Caffe 和 MXNet 等 。 它 们 有 的 计算 速度 快 ， 有 的 可 移植 性 好 ， 有 的 内 存 占用 少 ， 有 的 易于 上 手 。 
在 Google 推出 TensorFlow 之 前 , 大 家 仍 处 于 “你 方 唱 黑 我 登场 ”的 百家争鸣 状态 。 然 而 ,Google 
推出 深度 学 习 框 架 TensorFlow 之 后 ， 江 湖 巨 变 。 

2015 年 10 月 ，Google 旗 下 的 DeepMind 公司 研发 的 AlphaGo 击败 树 府 ， 成 为 第 一 个 无 须 让 
子 即 可 在 19 路 棋盘 上 击败 职业 围棋 选手 的 电脑 程序 。 这 一 壮举 不 仅 打破 了 人 工 智 能 无 法 在 围棋 
领域 战胜 人 类 顶尖 棋 手 的 诅咒 ， 而 且 吸 引 了 全 球 各 界 对 人 工 智能 研究 的 高 度 关注 。2016 年 1 月 ， 
AlphaGo 的 研究 成 果 发 表 在 知名 学 术 期 刊 《 自 然 》 上 ， 这 一 事件 也 将 人 工 智 能 热潮 推 向 了 新 的 高 
度 。2017 年 5 月 ， 强 化 后 的 AlphaGo 与 世界 围棋 三 甲 之 一 的 柯 洁 对 穿 ， 获 得 3 : 0 全 胜 战绩 。 这 


次 笃定 了 人 们 对 于 Google 在 人 工 智能 领域 遥遥 领先 的 信念 。 


AlphaGo 的 后 期 版 本 使 用 了 基于 TensorFlow 编写 的 算法 模型 。 但 事实 上 ，AlphaGo 只 是 让 
TensorFlow 走 进 公众 视野 的 一 个 契机 ，TensorFlow 的 原始 动机 则 是 Google 在 高 速 发 展 的 信息 化 
应 用 背景 下 ， 发 展 感知 、 预 测 等 人 工 智能 技术 的 需求 。 移 动 互联 网 、 物 联网 、 共 享 经 济 、 增 强 实 
现 …… 这 些 热 词 的 背后 无 一 不 需要 海量 数据 与 智能 处 理 能 力 的 支撑 。 作 为 行业 的 引领 者 ，Google 
公司 内 部 很 早 便 有 自 研 的 机 器 学 习 平台 。TensorFlow 是 既 有 平台 的 多 年 技术 积累 在 新 的 时 代 背 景 


下 蜡 变 升华 的 成 果 。 


TensorFlow 推出 后 短 短 一 个 月 ， 就 成 为 了 机 带 学 习 和 深度 学 习 项 目 中 最 受 欢迎 的 开源 框架 。 
究 其 原因 ， 离 不 开 Google 在 人 工 智能 与 数据 处 理 领 域 的 深厚 积 演 及 其 在 业界 的 强大 号 召 力 。 同 


时 ，Google 已 经 成 功 领导 了 多 个 开源 项 目 ， 


典型 的 有 移动 操作 系统 Android 、 容 器 编 排 引 擎 


Kubernetes 、 编 程 语言 Go 等 ， 它 们 充分 体现 了 Google 的 工程 水 准 与 协作 精神 。 因 此 ， 在 内 因 与 
外 因 的 合力 之 下 ，TensorFlow 的 横 空 出 世 也 就 不 难 理解 了 。 


1.1.2 ”独特 价值 


TensorFlow 能 够 在 众多 开源 框架 中 杀 出 重围 ， 除 了 Google 的 背书 以 外 ， 一 定 有 其 自身 的 独 
特价 值 。 下 面 重 点 介绍 TensorFlow 相 比 其 他 开源 框架 的 亮点 和 优势 。 
口 运算 性 能 强劲 。 在 构建 和 部 署 机 器 学 习 系统 时 ， 性 能 是 至 关 重 要 的 。TensorFlow 1.0 加 入 
的 线性 代数 编译 器 XLA 全 方位 地 提升 了 计算 性 能 。XLA 可 以 帮助 TensorFlow 在 CPU、 


GPU、TPU、 租 人 式 设 备 等 平台 上 更 


快速 地 运行 机 咒 学 习 模 型 的 训练 与 推理 任务 。 同 


时 ，TensorFlow 提供 了 大 量 针对 不 同 软 硬 件 环境 的 优化 配置 参数 。 用 户 可 以 根据 自身 的 
需求 和 应 用 的 特点 ， 进 一 步 提升 计算 性 能 。 

D 框架 设计 通用 。TensorFlow 并 非 只 是 纯粹 的 神经 网 络 库 。TensorFlow 最 初 由 Google Brain 
小 组 (隶属 于 Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 ， 用 于 机 器 学 习 
和 深度 神经 网 络 方面 的 研究 ， 但 其 灵活 的 设计 也 可 广泛 用 于 其 他 计算 领域 。 同 时 ， 


TensorFlow 既 提 供 高 层 封 装 API (如 S 


lim、Keras、TF Layers 等 ) ， 能 够 帮助 用 户 快 速 实 


现 算法 原型 ， 又 提供 底层 原生 API， 可 以 实现 更 灵活 且 高 效 的 分 布 式 并 行 模式 。 

口 支持 生产 环境 部 署 。TensorFlow 支持 使 用 同一 套 API 实现 探索 环境 和 生产 环境 的 部 署 。 
曾经 ， 科 研 人 员 将 算法 原型 推广 到 生产 环境 中 使 用 的 过 程 非常 痛 兰 ， 因 为 这 涉及 大 量 的 
模型 重 写 和 脚本 适 配 工作 。 现 在 ， 使 用 TensorFlow 的 算法 研发 人 员 既 可 以 快速 地 将 想法 


和 原型 运用 到 生产 环境 的 产品 中 ， 也 可 以 在 学 术 圈 更 方便 地 分 享 自 己 的 研究 成 果 。 


口 语言 接口 丰富 。TensorFlow 核心 层 由 C++ 实现 ， 应 用 层 使 用 SWIG 等 技术 封装 ， 提 供 了 
多 语言 API 的 支持 。 目 前 ， 官 方 支持 的 语言 有 Python、C、C++、Java、Go 等 。 除 此 之 


外 ，TensorFlow 的 社区 贡献 者 们 也 提供 


com/node-tensorflow/node-tensorflow ) 、 


t 了 非 官方 的 应 用 层 API， 如 Nodejs ( https://github. 


Julia( https://github.com/malmaud/TensorFlow.jl ) 、 


R (https:/github.comy/rstudio/tensorflow )。 
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口 端 云 协同 计算 。TensorFlow 同时 支持 在 云 侧 ( 服务 器 端 ) 和 端 侧 〈 移动 设备 等 终端 ) 运 
行 ， 有 效 结合 了 云 侧 和 端 侧 的 各 自 优势 。 在 云 侧 方面 ，TensorFlow 提供 多 种 并 行 模式 和 
编译 优化 等 技术 ， 尽 可 能 提升 算法 模型 的 运算 性 能 ; 在 端 侧 方面 ，TensorFlow 提供 轻 量 
级 部 署 和 8 比特 压缩 等 技术 ， 尽 可 能 提升 计算 和 存储 资源 利用 效率 。 

除 以 上 列举 的 优势 外 ，TensorFlow 丰富 的 算 子 库 和 教学 资料 也 是 其 独 有 的 竞争 优势 。 同 时 ， 
TensorFlow 社区 的 活跃 度 遥 遥 领 先 其 他 竞争 者 , 每 个 月 都 会 有 上 万 行 的 代码 合 入 主 分 支 , 这 使 得 
TensorFlow 的 新 特性 能 够 快速 实现 ，bug 也 能 快速 修复 。 我 们 相信 在 业界 众多 人 工 智能 开发 者 和 
Google 工程 师 的 共同 努力 下 ，TensorFlow 能 够 计算 得 越 来 越 快 、 发 展 得 越 来 越 好 。 


1.1.3 ”版 本 变迁 


TensorFlow 自 2015 年 11 月 开源 以 来 , 已 经 发 布 了 30 多 个 版 本 。 本 节 从 TensorFlow 的 发 展 
历程 人 手 ， 考 查 其 关键 特性 的 发 布 和 对 应 版 本 的 变迁 。 图 1-1 展示 了 这 一 变化 过 程 。 
2016.09.13 2017.08.17 
2016.04.13 TensorFlow 2016.12.21 2017.04.27 TensorFlow 
TensorFlow 0.10.0 TensorFlow TensorFlow 1.3.0 
2015.11.01 0.8.0 发 布 高 层 0.12.0 1.1.0 发 布 
TensorFlow 支持 分 布 API TF- 支持 合并 Keras 2 Estimator 
开源 式 计算 Slim Windows 库 


2015.11.09 2016.06.27 2016.11.11 2017.02.15 2017.07.16 2017.11.03 
TensorFlow TensorFlow TensorFlow TensorFlow TensorFlow TensorFlow 
0.5.0 0.9.0 0.11.0 1.0.0 1.2.0 1.4.0 
第 一 个 发 支持 iOS 和 支持 HDFS 发 布 XLA 和 合并 Yahool 发 布 萎 data 
布 版 macOS 和 cuDNN 5 TFDebugger ”RDMA 方 案 

GPU 等 


图 1-1 TensorFlow 关键 特性 发 布 和 对 应 版 本 变迁 


在 TensorFlow 开源 后 第 9 天 ，Google 带 来 了 第 一 个 正式 发 布 版 一 一 TensorFlow 0.5.0， 不 过 
该 版 本 仅 支 持 在 Linux 系统 上 运行 单机 模型 。 随 着 TensorFlow 贡献 者 和 用 户 对 分 布 式 的 呼声 越 来 
越 高 , 2016 年 4 月 发 布 的 TensorFlow 0.8.0 开始 初步 支持 分 布 式 计算 。 两 个 月 后 ,TensorFlow 0.9.0 
增加 了 对 多 平台 的 支持 。 自 此 ， 用 户 可 以 将 TensorFlow 部 署 在 iOS 和 树 莓 派 (RaspberryPi ) 上 。 
同时 ， 该 版 本 还 支持 在 macOS 上 使 用 GPU 运行 算法 模型 。 

2016 年 9 月 , 0.10.0 版 本 的 发 布 解决 了 TensorFlow 学 习 成 本 高 和 上 手 难 的 问题 。 尤其 对 于 非 
计算 机 背景 的 算法 研究 人 员 ， 使 用 该 版 本 提供 的 高 层 API 一 一 TF-Slim 能 够 快速 实现 图 像 和 视觉 
领域 的 算法 模型 。TF-Slim 的 发 布 有 效 扩 大 了 TensorFlow 用 户 群 体 ， 使 得 高 校 和 科研 院 所 的 研究 
者 们 也 能 够 享受 TensorFlow 带 来 的 便利 。 

随 着 TensorFlow 开源 一 周年 而 到 来 的 0.11.0 版 本 ， 新 增 了 对 HDFS 和 cuDNN 5 的 支持 。 
HDFS 作为 Hadoop 生态 中 的 分 布 式 文件 系统 ， 广 泛 地 应 用 于 大 数据 系统 ， 这 一 特性 标志 着 大 数 
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据 生 态 和 TensorFlow 开始 相互 合作 和 共 赢 发 展 ; cuDNN 是 NVIDIA 公司 开发 的 深度 神经 网 络 库 ， 
cuDNN 5 能 够 进一步 提升 神经 网 络 任务 在 GPU 硬件 上 的 计算 速度 。 紧 接着 发 布 的 TensorFlow 
0.12.0 开始 为 Windows 平 台 提供 支持 ， 同 时 提供 了 实验 性 的 Go 语言 应 用 层 API。 


2017 年 2 月 ，Google 在 山 景 城 (Mountain View ) 召开 了 TensorFlow Dev Summit 2017 大 会 。 
大 会 全 面 介绍 了 TensorFlow 的 进展 和 取得 的 成 就 ， 并 于 隔 天 发 布 了 TensorFlow 1.0.0。 这 也 成 为 
了 TensorFlow 发 展 的 一 个 重大 里 程 碑 事 件 ， 标 志 着 TensorFlow 已 经 初步 成 熟 并 能 够 支持 生产 环 
境 部 署 。 事 实 上 ， 当 时 京东 、 小 米 、Uber 等 国内 外 公司 也 确实 在 生产 环境 中 使 用 了 TensorFlow。 
作为 TensorFlow 的 第 一 个 正式 版 ，TensorFlow 1.0.0 带 来 了 诸多 提升 性 能 和 易 用 性 的 关键 特性 ， 
比如 : 线性 代数 编译 器 XLA ， 部 分 解决 了 内 存 消耗 大 和 计算 速度 慢 的 问题 ; 命令 行 调 测 工具 
TensorFlow Debugger， 初 步 解决 了 算法 模型 调 测 困难 的 问题 。 同 时 ,该 版 本 还 新 增 了 对 Android 
的 友好 支持 ， 使 得 用 户 能 够 更 快速 地 将 TensorFlow 编写 的 模型 部 署 到 移动 设备 上 运行 。 


2017 年 4 月 ，TensorFlow 1.1.0 将 Keras 2 合并 到 了 项 目 主 分 支 的 给 contrib.keras 目录 中 。 从 
此 以 后 ， 用 户 再 也 不 需要 独立 安装 Keras 软件 包 ，TensorFlow 将 自 带 Keras API。Keras 是 一 套 类 
似 于 TF-Slim 的 高 层 API， 它 良好 的 封装 性 和 对 模型 的 高 度 抽象 使 之 收获 了 一 大 批 算法 开发 者 。 
但 是 ，Keras 并 不 等 于 TensorFlow， 诸 如 分 布 式 运行 和 更 灵活 的 计算 模式 等 还 得 使 用 TensorFlow 
原生 API 实 现 。 同 时 ， 该 版 本 还 支持 用 户 在 Windows 上 使 用 Java 语 言 的 应 用 层 API。 

2017 年 7 月 ，TensorFlow 1.2.0 正式 合 人 了 Yahoo! 提供 的 面向 InfiniBand 等 高 性 能 网 络 的 
RDMA 通信 方案 。 早 在 TensorFlow 白皮书 中 ，Google 就 表示 TensorFlow 支持 RDMA。 但 可 能 出 
于 商业 考虑 或 其 他 原因 ,一 直 没 有 将 RDMA 方案 发 布 到 TensorFlow 开源 版 本 中 。 直 到 TensorFlow 
1.2.0 发 布 ， 用 户 终于 可 以 在 高 性 能 网 络 设备 上 享受 RDMA 带 来 的 效率 提升 ， 这 有 效 解决 了 分 布 
式 训练 大 模型 时 的 通信 瓶颈 问题 。 经 测试 , 在 VGG 等 大 模型 的 分 布 式 训练 场景 下 , 相 比 TCP/IP， 
RDMA 能 够 减少 一 半 左 右 的 网 络 通信 开销 。 

2017 年 8 月 ，TensorFlow 1.3.0 发 布 。 它 允许 用 户 使 用 新 增 的 Estimator 库 ， 以 开 箱 即 用 方式 
快速 实现 深度 神经 网 络 分 类 器 ( DNNClassifier )、 深 度 神经 网 络 回归 表 (DNNRegressor )、 给 E 分 
类 器 ( LinearClassifier )， 以 及 深度 神经 网 络 和 线性 混合 分 类 器 ( DNNLinearCombinedClassifier )。 
同时 ， 从 TensorFlow 1.3.0 开始 的 所 有 二 进 制 发 布 包 都 默认 使 用 cuDNN 6， 这 将 进一步 提升 
TensorFlow 在 GPU 上 的 运算 性 能 。 


2017 年 11 月 ，TensorFlow 1.4.0 发 布 。 该 版 本 新 增 了 tf.data 模块 ， 为 数据 读 入 和 处 理 提供 了 
便捷 高 效 的 解决 方案 。 该 版 本 还 增强 了 Estimator 的 能 力 ， 使 其 能 够 支持 简单 的 分 布 式 模 型 训练 
和 评估 。 同 时 , Google 还 开源 了 GANEstimator 库 , 以 回应 越 来 越 多 的 用 户 对 生成 对 抗 网 络 ( GAN ) 
的 需求 。 

回 望 TensorFlow 的 发 展 历程 , 我 们 不 难 发 现 Google 在 TensorFlow 项 目的 推进 上 投入 了 不 小 
的 资源 。 在 TensorFlow 项 目 组 成 员 和 贡献 者 的 共同 努力 下 ，TensorFlow 正 一 步 步 走向 成 熟 。 
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1.1.4 ”与 其 他 主流 深度 学 习 框架 的 对 比 


放眼 全 球 , 诸如 Google、Facebook、Amazon 和 Microsoft 等 国际 巨头 均 在 深度 学 习 领 域 着 手 


布局 。 一 时 间 ， 江 湖 风云 四 起 ， 各 大 门派 争 相 斗法 。Google 坐 扫 


TensorFlow， 捍 卫 江 湖 地 位 ; 


Facebook 携手 Caffe2 和 PyTorch, 以 图 三 分 天 下 ; Amazon 拥抱 MXNet, 不 甘 落 于 人 后 ; Microsoft 


坚守 Cognitive Toolkit ( CNTK )， 寻 求 单 点 突破 。 除 此 之 外 , 还 有 Caffe 、Torch7 、Theano 等 站 


大 主流 深度 学 习 框 架 的 特点 与 优 劣 。 


辈 深度 学 习 框 架 参 与 竞争 。 可 谓 是 乱 花 渐 欲 迷人 有 眼 ,用户 不 知 如 何 选 。 本 节 将 为 用 户 客观 分 析 各 


下 面 我 们 从 社区 活跃 度 、 多 语言 文 持 、 教 学 资源 、 运 算 性 能 等 多 个 维度 全 方位 对 比 主流 的 深 


度 学 习 框架 。 考 虑 到 Keras 的 广大 月 


有 户 基础 , 我 们 也 将 其 单独 列 出 来 进行 比较 。 表 1-1 对 比 了 2017 


年 12 月 各 个 深度 学 习 框 架 在 GitHub 上 的 统计 数据 。 不 难 发 现 ，TensorFlow 在 各 项 指标 中 均 遥 遥 


领先 。 排 名 第 二 的 Keras 


于 接口 简单 易 用 而 受到 广泛 关注 ， 目 前 Keras 官方 已 经 支持 使 用 
TensorFlow、Theano 和 CNTK 作为 后 端 计 算 引 擎 。 紧 随 其 后 的 是 老牌 深度 学 习 框 架 Caffe， 其 创 
始 人 是 加 州 大 学 伯克利 分 校 的 页 扬 清 博士 ， 他 同时 也 参与 了 TensorFlow 项 目的 早期 设计 和 实现 。 


表 1-1 主流 深度 学 习 框 架 在 GitHub 的 上 统计 数据 

框架 名 称 所 属 机 构 多 语言 支持 Star 数量 Fork 数量 贡献 者 数 
TensorFlow Google Python/C/C++/Java/Go 84132 41072 1226 
Keras keras-team Python 23530 8582 590 
Caffe BVLC Python/C++/Matlab/Cmd-line 22024 13509 253 
CNTK Microsoft Python/C++/C# 13488 3522 158 
MXNet Amazon Python/C++/R/Scala/Julia 12594 4641 465 
PyTorch Facebook Python 10737 2225 375 
Torch7 Facebook Lua 7575 2222 133 
Theano 蒙特 利 尔 大 学 Python 7515 2370 326 
Caffe2 Facebook Python/C++ 6665 1510 140 


从 目前 局 势 来 看 ，TensorFlow 是 最 受 欢 迎 的 深度 学 习 框 架 。 那 么 ， 抛 开 Google 在 行业 的 巨 
影响 力 ，TensorFlow 自身 的 硬 实 力 如 何 呢 ? 我 们 参考 了 多 种 公开 基准 测评 ， 以 及 我 们 在 图 像 和 
视觉 领域 实际 测试 得 到 的 数据 ， 给 出 了 表 1-2 这 组 相对 客观 的 横向 对 比 。 表 中 各 评价 指标 均 为 5 
分 制 。 因 为 部 分 框架 未 能 找到 测试 数据 ， 所 以 表 中 仅 列 出 了 指标 相对 确定 的 深度 学 习 框架 。 


表 1-2 主流 深度 学 习 框 架 在 各 个 维度 的 横向 对 比 


框架 名 称 教学 资源 多 语 


模型 设计 


op 
+ 
口 


TensorFlow 5 
MXNet 3 
Caffe 2 
Theano 3 
Torch7 2 
CNTK 2 


wb ww wm| 串 
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对 于 深度 学 习 框 架 的 初学 者 来 说 ， 教 学 资源 是 一 个 非常 重要 的 参考 指标 。 借 助 Google 的 强 

影响 力 和 执行 力 ，TensorFlow 在 这 方面 具有 显著 优势 。 不论 是 基础 的 指导 手册 ， 抑 或 是 花样 百 

出 的 最 佳 实践 , 初学 者 都 有 大 量 资料 可 以 查询 。 同时， 人 工 智 能 相关 的 会 议和 期 刊 论文 中 发 布 的 
新 模型 和 新 算法 ， 几 乎 都 会 有 人 第 一 时 间 使 用 TensorFlow 实现 ， 并 在 GitHub 上 开源 出 来 。 

从 多 语言 接口 的 角度 来 看 ，TensorFlow 和 MXNet 共同 占据 领先 地 位 。 几 乎 所 有 框架 都 支持 
深度 学 习 领 域 的 “英语 ”一 一 Python。TensorFlow 对 更 多 不 同 编程 范式 语言 的 支持 使 之 对 于 不 同 
背景 的 用 户 都 具有 一 定 的 友好 性 ， 同 时 也 扩展 了 框架 潜在 的 应 用 领域 。 

从 模型 设计 维度 来 看 ，TensorFlow 采用 了 当前 主流 的 基于 数据 流 图 的 模型 设计 方式 。 其 算 子 
种 类 丰富 ， 粒 度 较 细 ， 为 用 户 提供 的 自由 度 高 。 相 比 于 Caffe 的 配置 式 模型 设计 ，TensorFlow 显 
得 更 加 灵活 ,能 够 适应 更 多 的 应 用 场景 ,同样 使 用 数据 流 图 定义 模型 的 还 有 MXNet。 f 过 ,MXNet 
的 分 布 式 模型 的 约束 较 多 ， 灵 活性 不 足 。 

自 TensorFlow 发 布 以 来 ， 运 算 性 能 似乎 一 直 是 其 弱项 。 在 GitHub 和 Stack Overflow 上 的 讨 
论 帖 中 ， 我 们 也 时 常 能 够 看 到 有 人 对 TensorFlow 的 内 存 消 耗 和 计算 速度 表示 遗憾 。 但 是 ， 随 着 
XLA 和 RDMA 等 特性 的 发 布 , TensorFlow 的 性 能 在 绝 大 多 数 情 况 下 都 不 输 于 其 他 深度 学 习 框架 。 
如 果 用 户 能够 深入 了 解 TensorFlow 的 API, 那么 就 会 发 现 它 提供 了 大 量 提升 性 能 的 配置 项 。 在 启 
用 这 些 性 能 优化 选项 后 ，TensorFlow 的 运算 性 能 甚至 能 够 超过 MXNet 和 Caffe。 

TensorFlow 的 灵活 性 是 它 的 一 大 优势 , 但 同时 也 因为 API 过 于 丰富 而 带 来 了 学 习 成 本 高 的 问 
题 。 尤 其 是 对 于 仅 研 究 算法 和 模型 的 开发 人 员 ， 在 没有 时 间 全 面 了 解 TensorFlow 运行 机 制 和 编 
程 接口 的 前 提 下 ， 往 往 党 得 无 从 下 手 。 针 对 这 类 用 户 ， 社 区 的 开发 者 们 也 提出 了 不 少 解决 方案 ， 
那 就 是 以 Keras、TF Layers 和 TF Learn 等 为 代表 的 高 层 API 封装 库 。 这 些 库 隐藏 了 TensorFlow 
的 大 量 细 粒 度 接口 ， 以 简单 易 懂 的 接口 取而代之 , 使 得 读者 能 够 快速 上 手 编程 ， 并 实现 一 些 单机 
运行 的 算法 模型 。 

综合 对 比 当前 主流 的 深度 学 习 框 架 ，TensorFlow 在 各 个 维度 都 具有 比较 明显 的 优势 。 同 时 ， 
TensorFlow 社区 的 活跃 度 也 远 超 其 他 社区 ， 这 会 使 得 越 来 越 多 的 深度 学 习 从 业者 参与 贡献 
TensorFlow 项 目 ， 最 终 形成 越 用 越 好 用 的 良性 循环 。 


1.2 设计 目标 


作为 Google 公司 上 一 代 深 度 学 习 平台 DistBelief 的 继任 者 ,TensorFlow 的 首要 设计 目标 是 满 

足 公 司 内 部 的 图 像 、 语 音 、 语义 等 感知 和 预测 类 应 用 的 需求 。 这 些 应 用 的 数据 规模 和 模型 复杂 度 
益 增 长 ， 对 提供 计算 能 力 的 软 硬 件 平台 的 功能 和 性 能 不 断 提出 更 高 的 要 求 。 与 此 同时 , 新 一 波 
人 工 智能 浪潮 的 兴起 也 促使 在 开源 软件 商业 生态 建设 方面 经 验 丰厚 的 Google 公司 敏锐 嗅 探 信息 
化 、 智 能 化 产业 发 展 的 新 动身， 并 广泛 吸收 工业 界 、 学 术 界 和 开源 社区 的 前 沿 理 念 与 最 佳 实践 ， 
年 这 些 思 想 纳入 TensorFlow 的 设计 。 种 种 迹象 表明 ，TensorFlow 的 设计 目标 并 非 局 限 一 套 深度 
习 库 ,Google 希 望 其 成 为 一 套 面向 多 种 应 用 场景 和 编程 范式 、 支 持 异 构 计算 平台 、 具 备 优异 性 
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能 与 可 伸缩 性 的 通用 人 工 智能 引擎 。 本 节 从 中 选取 几 个 侧面 ， 对 TensorFlow 的 设计 目标 进行 介 
绍 和 分 析 。 


1.2.1 灵活 通用 的 深度 学 习 库 


近 几 年 来 , 随 着 海量 数据 的 涌现 、 硬 件 计 算 能 力 的 提升 以 及 神经 网 络 模型 和 机 需 学 习 算 法 的 
改进 ， 深 度 学 习 技 术 得 到 了 快速 发 展 , 已 经 成 为 学 术 界 和 工业 界 共 同 关注 的 热点 。 一 方面 ,深度 
学 习 模型 和 算法 的 理论 研究 还 未 完全 成 熟 , 其 发 展 空间 巨大 , 吸引 了 大 量 科研 人 员 参 与 其 中 。 这 
几 年 深度 学 习 席 卷 了 各 大 顶级 学 术 会 议 ， 模 型 设计 、 方 法 优化 和 应 用 创新 的 迭代 更 新 速度 极 快 。 
另 一 方面 ,深度 学 习 在 某 些 领域 已 经 可 以 落地 ， 比 如 人 脸 识别 模型 成 功 应 用 于 安防 系统 ,语音 识 
别 模型 成 功用 于 智能 终端 。 除 此 之 外 ， 工 业界 正在 积极 探索 深度 学 习 更 多 潜在 的 商业 应 用 场景 。 
在 人 工 智 能 的 热潮 中 , 很 多 开源 的 深度 学 习 库 应 运 而 生 , 这 对 加 速 相关 人 研究 和 工程 化 效率 起 到 了 
非常 重要 的 作用 。 为 了 应 对 上 述 研究 与 应 用 领域 的 诸多 使 用 场景 ,深度 学 习 库 必 须 注 重 设计 的 灵 
活性 与 功能 的 通用 性 , 才能 在 风起云涌 的 人 工 智能 生态 系统 中 得 以 立足 。TensorFlow 作为 当前 主 
流 的 深度 学 习 库 之 一 ， 其 设计 具有 很 高 的 灵活 性 和 通用 性 ， 主 要 体现 在 以 下 几 个 方面 。 

口 在 算 子 定义 方面 ， 相 比 于 其 他 深度 学 习 库 ，TensorFlow 提供 的 算 子粒 度 更 细 、 数 量 更 

多 ， 能 够 支撑 上 层 灵活 多 变 的 模型 和 算法 。 用 户 可 以 使 用 这 些 算 子 自由 、 灵 活 地 开发 各 
种 深度 学 习 模 型 。 此 外 ， 很 多 传统 的 机 器 学 习 模 型 也 可 以 基于 TensorFlow 实现 ， 如 支持 
向 量 机 、 决 策 树 和 随机 森林 等 。TensorFlow 亦 支持 深度 学 习 和 传统 机 器 学 习 混合 的 模 
型 ， 从 而 使 得 数据 流水 线 式 的 应 用 创新 成 为 可 能 。TensorFlow 对 新 算 子 的 支持 也 足够 灵 
活 ， 人 允许 用 户 通过 组 合 已 有 的 细 粒 度 算 子 来 构造 新 的 算 子 ， 以 快速 实现 算法 原型 、 验 证 
一 些 新 的 想法 。 用 户 也 可 以 使 用 C++ 语言 和 CUDA 等 底层 函数 库 实现 新 的 算 子 并 在 运行 
时 动态 加 载 使 用 ， 以 便 满足 专用 算法 需求 并 保证 计算 性 能 。 

口 在 编程 范式 方面 ，TensorFlow 支持 声明 式 编程 ， 将 模型 的 定义 和 执行 解 簿 。 模 型 以 数据 
流 图 结构 表示 ， 经 过 编译 和 优化 之 后 才 会 真正 执行 。 以 数据 流 图 抽象 为 核心 的 设计 在 保 
证 模型 执行 效率 的 同时 ， 使 得 用 户 编程 更 加 灵活 。 例 如 ， 在 模型 定义 阶段 ， 用 户 可 以 通 
过 添加 控制 依赖 边 来 指定 算 子 的 执行 顺序 ， 通 过 添加 自 定 义 变量 自如 地 管理 数据 流 图 的 
输入 和 输出 ， 还 可 以 通过 队列 控制 多 设备 之 间 的 数据 传输 和 子 图 执行 时 序 。 在 数据 流 图 
的 运行 态 ， 用 户 可 以 指定 数据 流 图 中 待 执 行 的 子 图 ， 从 而 避免 不 必要 的 算 子 计算 开销 。 
除了 模型 之 外 ， 数 据 读 取 、 数 据 预 处 理 等 其 他 操作 都 可 以 被 添加 到 数据 流 图 中 ， 用 户 可 
以 通过 编辑 数据 流 图 实现 对 具体 应 用 的 端 到 端 灵 活 控制 。 

口 在 运行 时 框架 方面 ，TensorFlow 在 具备 隐 式 并 行 计算 能 力 的 同时 ， 也 提供 了 细 粒 度 的 显 
式 控制 接口 ， 允 许 灵 活 地 控制 模型 在 多 节点 异 构 设备 上 的 分 布 式 执行 方式 。 用 户 在 编写 
深度 学 习 模 型 时 ， 可 以 自由 地 将 模型 中 的 每 个 算 子 绑 定 在 任意 的 计算 设备 上 。TensorFlow 
运行 时 框架 负责 将 模型 对 应 的 数据 流 图 按照 设备 进行 切 分 ， 并 自动 插入 必要 的 通信 操 
作 ， 对 用 户 屏蔽 了 底层 复杂 的 数据 传输 与 时 序 同 步 机 制 。 用户 可 以 结合 具体 模型 和 应 用 
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的 特点 ， 通 过 手工 指定 或 者 以 强化 学 习 等 方式 找 出 模型 在 多 节点 异 构 硬件 上 的 最 优 布局 
与 执行 方式 ( 如 数据 并 行 、 模 型 并 行 等 ) 这 使 得 模型 的 训练 和 推理 都 有 更 多 的 优化 空间 。 
在 多 语言 支持 方面 ，TensorFlow 提供 Python、C、C++、Java、Go 等 主流 语言 的 编程 接 
口 。 虽 然 Python 是 当前 深度 学 习 和 人 工 智 能 领域 使 用 最 为 广泛 的 编程 语言 ， 但 是 其 他 语 
言 也 有 各 自 的 语法 优势 、 适 用 场景 以 及 拥有 古 ， 它 们 能 够 满足 科研 、 商 用 等 不 同 应 用 领域 
及 服务 器 、 终 端 等 不 同 目标 设备 的 开发 需求 。 另 外 ， 社 区 开源 贡献 者 在 TensorFlow C 
API 基础 上 扩展 开发 了 Nodejs、Julia、R 等 其 他 语言 的 编程 接口 ， 这 在 体现 TensorFlow 
内 核 设计 灵活 性 的 同时 ， 也 进一步 扩大 了 其 作为 通用 深度 学 习 库 的 场景 覆盖 范围 。 

总 而 言 之 ，TensorFlow 通过 丰富 的 算 子 、 灵 活 的 编程 范式 、 自 由 的 运行 时 框架 以 及 多 语言 
API 支持 ， 对 用 户 展现 了 高 度 的 灵活 性 和 通用 性 。TensorFlow 在 其 设计 之 初 就 被 定义 为 灵活 通用 
的 深度 学 习 平 台 。Google 公司 将 它 开源 的 目的 正 是 要 以 其 作为 基石 , 构筑 深度 学 习 力 至 整个 人 工 
智能 的 生态 圈 。 


口 


1.2.2” 端 云 结合 的 人 工 智能 引擎 


“ 端 云 结合 ”是 当今 信息 化 、 智 能 化 技术 发 展 的 普遍 趋势 。 一 方面 ， 随 着 信息 技术 在 生产 、 
生活 中 各 个 应 用 领域 愈 发 深入 的 集成 ， 对 海量 数据 的 高 效 处 理 成 为 IT 服务 商 与 决策 部 门 的 迫切 
需求 。 在 传统 数据 中 心 基础 上 发 展 起 来 的 云 计 算 和 大 数据 技术 以 集约 化 的 资源 管理 、 动 态 弹性 的 
资源 供给 为 持续 膨胀 的 应 用 提供 了 高 水 平 、 可 伸缩 的 计算 能 力 , 同时 降低 了 服务 提供 者 的 准 入 门 
槛 。 这 就 要 求 传统 服务 器 端 软件 必须 适应 云 化 部 署 场景 ， 以 水 平 扩 展 ( scale-out )、 无 状态 、 微 服 
务 等 方式 构建 高 内 聚 、 低 耦合 的 系统 架构 。 另 一 方面 ， 随 着 以 智能 手机 为 代表 的 移动 终端 技术 的 
高 速 普及 ， 以 及 物 联网 、 机 器 人 等 智能 化 技术 在 传统 行业 的 不 断 渗 透 ， 用 户 对 于 数据 私密 性 、 安 
全 性 的 重视 程度 逐渐 增强 ， 应 用 场景 对 服务 实时 性 与 可 用 性 的 要 求 也 更 加 严格 。 在 这 一 背景 下 ， 
计算 能 力 的 边缘 化 成 为 与 云 化 并 轰 齐 驱 的 演进 方向 。 这 就 要 求 提 供 服务 的 软件 能 够 适应 体系 结构 
多 样 、 计 算 资 源 有 限 、 功 耗 受 到 制约 的 终端 硬件 环境 ， 并 具备 一 定 的 自治 与 协同 工作 能 力 。 

在 人 工 智能 领域 野心 勃勃 的 Google 公司 自然 准确 地 把 握 并 积极 地 引领 着 这 一 趋势 。 在 云 侧 ， 
Google 既是 一 家 公有 云 提 供 商 ,需要 通过 具有 核心 竞争 力 的 PaaS 层 产 品 吸引 企业 级 用 户 和 二 次 开 
发 者 ; 又 是 一 家 业务 高 度 依赖 于 智能 算法 与 海量 数据 的 创新 型 公司 ,需要 开发 高 效 、 灵 活 的 基础 平 
台 软 件 满 足 自身 业务 快速 发 展 的 需要 。 在 端 侧 ，Goosle 公司 不 但 需要 为 日 新 月 异 的 应 用 开发 提供 
强 有 力 的 智能 化 支撑 能 力 ， 从 而 使 其 Android 生态 系统 得 以 抗衡 强大 的 竞争 对 手 ; 而 且 需 要 借助 实 
时 且 可 靠 的 智能 计算 引擎 进军 物 联 网 、 可 穿戴 设备 、 增 强 实现 、 无 人 驾驶 等 新 兴 领 域 ， 以 寻求 “后 
移动 互联 网 时 代 ” 的 新 增长 点 。TensorFlow 等 平台 层 软件 的 设计 因此 也 兼顾 了 云 侧 与 端 侧 的 需求 。 

TensorFlow 对 云 计算 场景 的 支持 是 其 竞争 力 的 基础 ， 主 要 体现 在 以 下 方面 。 


口 提供 多 种 标准 化 的 安装 包 、 构 建 脚本 及 容 带 化 封装 ， 支 持 在 不 同 Linux 发 行 版 以 及 Windows 
Server 等 其 他 服务 器 操作 系统 上 部 署 ， 既 允许 以 二 进 制 包 方式 快速 安装 ， 也 人 允许 针对 特定 环 
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统 概述 


境 定制 化 编译 高 效 的 目标 代码 ， 从 而 极 大 地 扩展 了 软件 的 适用 范围 ， 增 强 了 适 配 能 
口 支持 对 接 多 种 常见 的 公有 云 和 私有 云 服 务 ， 如 Google Cloud Storage、Amazon S3、HDFS， 
并 为 对 接 其 他 类 似 服务 预 留 可 扩展 设计 ， 从 而 能 够 与 既 有 的 互联 网 、 大 数据 生态 系统 无 


颖 交互， 实现 资源 复 用 与 服务 组 合 。 


口 兼容 若干 种 常见 的 高 性 能 计算 与 通信 硬件 ， 能 够 有 效 利用 云 环境 的 既 有 投资 并 提升 应 用 


软件 对 高 端 硬件 资源 的 利用 率 。 例 如 ， 支持 NVIDIA 和 0O 
核 设 备 的 并 行 计算 能 力 ; 支持 RDMA 网 络 协议 ， 能 够 充分 发 挥 InfiniBand 等 高 速 网 络 设 


备 的 带宽 潜力 。 


口 灵活 的 运行 时 框架 设计 ， 既 提供 标准 且 易 用 的 PS-worker 分 布 式 模式 ， 也 允许 用 户 自 


penCL GPU， 能 够 充分 挖掘 众 


开发 针对 特定 环境 需求 的 分 布 式 框架 。 即 使 脱离 Google 公司 的 Borg 等 基础 设施 ， 以 
TensorFlowOnSpark 、MaTEx-TensorFlow 为 代表 的 第 三 方 工具 也 能 够 利用 既 有 的 分 布 式 
平台 提升 TensorFlow 在 数据 中 心 和 超 算 集群 中 的 可 伸缩 性 。 


TensorFlow 在 端 侧 场景 方面 也 毫 不 逊色 ， 其 主要 设计 体现 在 以 下 几 个 方面 。 

口 推理 (预测 ) 态 代码 能 够 运行 于 多 种 主流 的 终端 平台 ， 包 括 Android 、iOS ， 以 及 部 署 
Linux 操作 系统 的 多 类 ARM 与 MIPS 设备 ( 如 Raspberry Pi ) ， 从 而 为 形态 多 样 的 终端 设 
备 集成 AI 认 知 与 决策 能 力 提供 支撑 。 


口 通过 XLA AOT (ahead-of-time ) 编译 技术 及 其 
计算 设备 的 对 接 方 式 ， 实 现 对 神经 网 络 芯 片 等 新 型 专用 端 侧 硬 件 的 快速 支持 能 


侧 计算 的 私密 性 与 实时 性 。 


可 以 看 出 ，TensorFlow 作为 一 套 人 工 智能 引擎 ， 不 但 致力 于 增强 应 用 系统 的 “大 脑 ”， 同 时 
也 在 帮助 其 完善 “末梢 神经 ” 。 可 以 预见 ， 未 来 TensorFlow 等 人 工 智能 引擎 会 像 Linux 操作 系统 


也 软 硬 件 解 耦 设计 ， 显 著 地 简化 底层 异 构 


D 提供 量化 参数 和 低 精 度 代数 等 算法 层 机 制 ， 适 配 算 力 、 存 储 和 功 耗 受 限 的 终端 ， 从 而 实 
现 低 端 边 缘 设 备 的 智能 化 。 
口 提供 模型 与 框架 一 体 化 的 精简 版 运行 时 平台 ， 具 备 完 全 的 


离线 工作 能 力 ， 有 助 于 实现 端 


内 核 一 样 ， 成 为 在 端 云 两 侧 广 泛 支 撑 各 类 应 用 、 助 力 实现 智能 化 社会 的 幕后 英雄 。 


1.2.3 ”高 性 能 的 基础 平台 软件 

虽然 如 今 的 互联 网 、 大 数据 计算 平台 软件 层出不穷 , 核心 技术 变幻 莫 测 , 吸 睛 特性 轮番 登场 ， 
但 是 性 能 始终 都 能 够 超脱 于 名 目 繁多 的 趴 头 , 成 为 几乎 所 有 用 户 一 致 认可 的 硬指标 。 在 半导体 器 
件 物理 极限 将 至 的 情况 下 , 摩尔 定律 的 有 效 性 已 经 存疑 软件 轻松 分 享 硬件 发 展 红利 的 时 代 走 向 


路 。 人 硬件 设计 者 正在 广泛 采纳 彰 
用 不 断 增长 的 算 力 需求 , 这 为 软 伯 
和 算法 有 效 适 配 到 硬件 体系 结构 、 


[型 名 件 、 三 维 电路 、 应 用 定制 、 


众 核 并 行 等 多 元 化 思路 满足 应 


F 开 发 者 提供 机 会 的 同时 也 带 来 了 不 小 的 挑战 。 如 何 将 软件 架构 


充分 利用 硬件 资源 发 挥 其 设计 全 


别 是 基础 平台 层 软件 开发 者 面临 的 重要 问题 。 


E 能 ,成 为 所 有 软件 开发 者 , 特 
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随 着 深度 学 习 技术 发 展 而 兴起 的 一 系列 开源 计算 库 长 期 处 于 激烈 竞争 的 态势 。 在 竞争 过 程 
中 ， 一 快速 百 丑 。 这 里 的 “ 快 ” 字 有 两 层 含义 : 深度 学 习 库 的 开发 者 不 仅 需要 快速 响应 上 层 需求 
和 下 层 技术 的 变化 , 及 时 发 布 新 版 本 与 新 特性 ,而 且 需 要 通过 将 修 内 功 提升 深度 学 习 库 本 身 的 性 
能 ， 加 快 算法 模型 的 训练 与 推理 速度 。 在 第 一 个 “ 快 ” 字 上 ，TensorFlow 借助 Google 公司 强大 
的 号 召 力 和 坚决 的 执行 力 ， 长 期 保持 领先 地 位 。 在 第 二 个 “ 快 ” 字 上 ，TensorFlow 曾 因 权衡 灵活 
性 等 原因 一 度 落 后 于 同类 软件 ,但 如 今 已 经 迎头 赶 上 ,在 主流 应 用 场景 中 取得 了 优异 的 测试 成 绩 。 
这 归功 于 众多 核心 研究 者 和 开源 贡献 者 在 性 能 方面 的 深耕 。 

TensorFlow 的 高 性 能 设计 首先 体现 在 它 对 高 端 和 专用 硬件 的 深入 支持 。 同 其 他 主流 的 深度 学 
习 库 一 样 ，TensorFlow 将 NVIDIA GPU 作为 训练 态 的 硬件 加 速 器 ， 同 时 兼顾 OpenCL GPU 设备 。 
不 同 于 简单 使 用 CUDARuntime API 的 其 他 平台 ,Google 的 工程 师 基 于 CUDA Driver API 实现 了 控制 
粒度 更 细 、 并 行 性 能 更 优 的 StreamExecutor 异 构 计算 库 ， 并 对 cuBLAS 、cuDNN 等 库 的 函数 变种 进 
行 了 精确 的 适 配 。 在 推理 态 , 尽管 Google 没有 开源 或 销售 TPU, 然而 TensorFlow 开放 性 的 设计 已 经 
促使 多 家 芯片 厂家 实现 了 对 接 ， 这 为 定制 化 设备 上 的 计算 性 能 提升 提供 了 保障 。 针 对 高 性 能 计算 环 
境 中 常用 的 InfiniBand、RoCE 等 高 速 网 络 设 备 ， 以 及 NVLink 等 片 间 高 速 互 联 技术 ，TensorFlow 引 
入 了 RDMA 、NCCL 等 协议 ， 较 好 地 解决 了 通信 延迟 问题 ， 推 进 了 分 布 式 计算 作业 的 加 速 比 提升 。 

其 次 ， 系 统 层 的 优化 技术 是 TensorFlow 性 能 提升 的 重要 杀手 铀 。 相 上 比 来 自 于 学 术 界 的 算法 
人 研究 团队 ，Google 科研 与 工程 团队 深厚 的 系统 研发 背景 是 TensorFlow 构建 性 能 竞争 力 的 坚实 后 
盾 。XLA 这 种 融合 了 编译 器 设计 理论 的 优化 框架 就 是 一 例 。 它 引入 的 JIT (just-in-time ) 编译 机 
制 能 够 在 数据 流 图 运行 过 程 中 实时 创建 二 进 制 代码 , 将 其 中 大 量 细 粒度 的 操作 融合 为 少量 粗 粒 度 
的 专用 核 函 数 ， 从 而 减少 图 中 操作 执行 时 的 内 存 分 配 和 上 下 文 切换 开销 ， 极 大 地 提升 计算 速度 。 
TensorFlow 诸多 模块 设计 中 也 存在 着 细节 上 的 性 能 优化 。 例 如 ， 通 信 模 块 中 具有 若干 种 旁 路 
(bypass ) 设计 ， 可 以 避免 不 必要 的 网 络 访问 和 内 存 复 制 开销 ; 数据 流 图 构建 时 会 执行 常量 折 释 、 
公共 子 表达 式 消除 、 内 联 函 数 展开 等 多 种 语法 树 优化 ,能够 消除 无 意义 的 计算 开销 。 这 些 设计 体 
现 出 开发 者 良好 的 软件 工程 素养 与 精益 求 精 追 求 。 

最 后 ， 算 法 层 的 优化 设计 也 是 TensorFlow 实现 优异 性 能 不 可 或 缺 的 组 成 部 分 。 为 了 实现 高 
性 能 的 目标 ，TensorFlow 的 设计 采纳 了 自 顶 向 下 、 全 栈 优 化 的 思路 ， 而 算 子 恰恰 是 贯穿 上 下 层 的 
核心 要 素 。 在 深度 学 习 的 算法 模型 中 ， 每 种 算 子 的 逻辑 都 可 以 采用 多 种 算法 实现 。 为 此 ， 
TensorFlow 内 置 了 多 种 优化 后 的 基础 算 子 和 模型 组 件 , 以 卷 积 算 子 为 例 , cuDNN 提供 了 Winograd 
等 8 种 算法 。 针 对 不 同 的 输入 数据 大 小 、 卷 积 计 算 超 参 以 及 内 存 等 资源 限制 ，TensorFlow 会 自动 
为 每 个 卷 积 操作 选择 最 快 的 实现 算法 。 另 外 , 针对 递归 神经 网 络 等 模型 ，TensorFlow 也 支持 Fold 
解决 方案 ， 使 得 动态 批 处 理 成 为 可 能 ， 极 大 提高 了 这 些 模型 的 计算 速度 。 

综 上 所 述 ， 性 能 是 TensorFlow 研发 者 重点 关注 的 设计 目标 。 虽 然 TensorFlow 开源 版 本 的 性 
能 优化 起 步 稍 晚 ， 但 是 在 Google 团队 和 开源 社区 的 共同 努力 下 进步 迅速 。 在 这 个 “天 下 武功 唯 
快 不 破 ” 的 时 代 ，TensorFlow 的 高 性 能 优势 必 将 为 Google 插 上 腾飞 的 翅膀 ， 使 之 引领 人 工 智 能 
研究 与 应 用 的 高 速 发 展 。 
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1.3 ”基本 架构 


在 展开 介绍 TensorFlow 的 使 用 方法 和 设计 原理 之 前 ， 我 们 有 必要 建立 对 TensorFlow 基本 架 
构 的 直观 认识 。 本 节 从 工作 形态 和 组 件 结构 这 两 个 角度 对 TensorFlow 进行 概要 性 的 说 明 。 读 者 


可 以 以 此 为 切 人 点， 逐步 理 顺 学 习 TensorFlow 的 脉络 。 


1.3.1 工作 形态 


基础 平台 层 软 件 的 设计 模式 多 种 多 样 , 它们 对 应 用 层 开发 者 体现 出 的 工作 形态 也 有 所 差别 。 
在 众多 平台 设计 模式 中 ， 存 在 两 类 基础 而 典型 的 模式 ， 即 图 1-2 所 示 的 库 模 式 和 框架 模式 。 在 
库 模 式 下 ， 平 台 层 软件 以 静态 或 动态 的 开发 库 (如 .a、.so 文 件 ) 形式 存在 ， 应 用 层 开发 者 需要 


编写 程序 调用 这 些 库 提供 的 函数 ， 实 现 计算 逻辑 。 程 序 的 入 口 ( 妇 


制 权 把 握 在 应 用 层 开发 者 手中 。 在 框架 模式 下 ,平台 层 软件 以 可 执行 文件 的 形式 存在 ， 并 以 前 
端 交 互 式 程序 或 后 端 守护 进程 方式 独立 运行 。 应 用 层 开发 者 需要 遵从 平台 规定 的 接口 约束 ， 开 


上 main() 函 数 ) 及 整体 流程 控 


发 包含 计算 逻辑 在 内 的 子 程序 ， 交 由 框架 性 质 的 平台 层 软 件 调度 执行 。 程 序 的 入 口 及 整体 流程 


控制 权 由 框架 把 握 。 


(a) 库 模式 (b ) 框架 模式 
图 1-2 平台 层 软 件 的 典型 设计 模式 


在 高 性 能 与 大 数据 计算 领域 ， 典 型 的 库 模 式 软件 有 用 于 计算 的 Eigen、NumPy， 以 及 用 于 通 


信 的 MPI、ZeroMQ 等 。 基 于 这 些 库 开 发 应 用 时 ， 编 程 方式 比较 灵 


图 例 ， 


| | 用 户 代码 
| | 平台 代码 


活 ， 部 署 模式 也 相对 轻 量 。 应 


用 开发 者 具有 较 大 的 自由 度 ， 但 不 得 不 编写 业务 逻辑 之 外 的 不 少 “ 脚 手 加 ”代码 ， 以 便 将 算法 代 


码 片段 转变 为 完整 可 用 的 软件 。 典 型 的 框架 模式 软件 有 大 数据 计算 平台 Hadoop 、Spark， 以 及 基 
于 SQL 和 类 SQL 语言 的 数据 库 、 数 据 仓 库 等 。 使 用 这 些 框 架 开 发 应 用 时 ， 开 发 者 的 工作 相对 轻 
松 , 只 需要 编写 与 业务 逻辑 密切 相关 的 算法 代码 ,不 用 关心 运行 时 机 制 的 复杂 性 。 不 过 ,程序 的 


灵活 性 将 受制 于 框架 的 约束 。 


TensorFlow 的 设计 采用 了 库 模 式 。 之 所 以 如 此 ,是 出 于 灵活 通用 、 端 云 结合 及 高 性 能 等 设计 
目标 的 考虑 。 库 模式 的 平台 层 软件 便于 与 各 种 既 有 的 框架 协同 工作 , 不 对 软件 的 运行 时 组 件 添加 
新 的 约束 , 应 用 范围 也 不 受制 约 。 除 了 依赖 最 基本 的 编程 语言 库 和 操作 系统 调用 ,这 类 平台 层 软 
件 同 其 他 环境 因素 解 厢 ， 从 而 可 以 做 到 高 度 的 可 移植 性 。 在 单机 和 终端 等 场景 下 ， 由 于 没有 守护 
进程 和 调度 框架 的 开销 ， 有 效 计算 逻辑 的 资源 利用 率 也 会 提高 ， 进 而 有 助 于 性 能 优化 。 

综 上 ，TensorFlow 的 工作 形态 是 由 用 户 编 写 主 程序 代码 ， 调 用 Python 或 其 他 语言 函数 库 提 
供 的 接口 以 实现 计算 逻辑 。 用 户 部 署 和 使 用 TensorFlow 系统 时 ， 不 需要 启动 专门 的 守护 进程 
也 不 需要 调用 特殊 的 启动 工具 ,只 需要 像 编 写 普通 的 本 地 应 用 程序 那样 即 可 上 手 。 用 户 也 不 用 担 
心 库 模 式 的 开发 所 必需 的 那些 “脚手架 ”代码 ， 因 为 TensorFlow 已 经 提供 了 多 种 高 级 抽象 ， 尽 
可 能 地 最 小 化 了 核心 计算 逻辑 之 外 的 开发 工作 。 


1.3.2 组件 结构 


TensorFlow 作为 一 套 包 含 数 十 万 行 代码 的 大 型 软件 ,其 组 件 结构 较为 复杂 。 不 过 , 由 于 其 代 
码 组 织 合理 ， 文 档 资 料 充 分 ， 我 们 很 容易 将 它 的 软件 结构 进行 不 同 抽象 程度 的 宏观 呈现 。 初 识 
TensorFlow 的 新 手 只 需要 从 最 高 层 的 抽象 视角 观察 其 组 件 构成 。 图 1-3 给 出 了 一 幅 粗 粒度 的 
TensorFlow 组 件 结构 示意 图 ， 展 示 了 TensorFlow 的 主要 内 部 结构 及 其 与 周边 环境 的 关系 。 


人 工 智能 应 用 程序 
算法 模型 库 


吕 
3 
下 
© 
蕊 
项 
目 
操作 系统 
设 


图 1-3 ”TensorFlow 的 组 件 结构 示意 图 
构成 TensorFlow 的 主体 是 其 运行 时 核心 库 。 对 于 普通 的 Python 应 用 层 开发 者 而 言 ， 这 个 核 
心 库 就 是 指 通过 pip 命令 等 方式 安装 TensorFlow 之 后 ,部署 到 site-packages 或 类 似 目 录 中 的 动态 
链接 库 文 件 。 生 成 这 个 库 的 C++ 源 代码 大 致 分 为 3 个 层次 : 分 布 式 运行 时 、 公 共 运 行 时 和 算 子 
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核 函 数 。 其 中 , 公共 运行 时 实现 了 数据 流 图 计算 的 基本 逻辑 ,分 布 式 运行 时 在 此 基础 上 实现 了 数 
据 流 图 的 跨 进 程 协同 计算 逻辑 ， 算 子 核 函 数 则 包含 图 上 具体 操作 节点 的 算法 实现 代码 。 

TensorFlow 运行 时 核心 库 导出 的 函数 接口 基于 C 和 C++ 语言 。 为 了 使 用 其 他 语言 进行 应 用 
开发 ,TensorFlow 提供 了 多 语言 的 API 层 .Python 应 用 层 开发 者 在 代码 中 调用 import tensorflow 
as tf 时 ， 导 入 的 便 是 TensorFlow 安装 在 Python 第 三 方 库 目 录 下 的 API 层 模块 ( 本 书后 面 沿 用 
这 种 Python 包 导 入 惯例， 使 用 tf 作为 tensorflow 命名 空间 的 缩写 )。API 层 对 用 户 屏 蔽 了 
TensorFlow 核心 库 的 动态 链接 逻辑 ， 使 得 用 户 可 以 使 用 自己 熟悉 的 语言 编写 算法 模型 。 

为 了 简化 经 典 模型 的 开发 ， 使 得 TensorFlow 成 为 一 套 “ 开 箱 即 用 ”的 工具 ，Google 官方 团 
队 及 开源 贡献 者 们 在 TensorFlow 社区 开设 了 若干 算法 模型 库 及 人 工 智能 应 用 程序 项 目 。 用 户 可 
以 复 用 这 些 项 目的 成 果 , 加 快 自己 的 项 目 开发 进度 ; 也 可 以 学 习 它 们 的 实现 原理 , 提升 自己 的 模 
型 与 应 用 设计 水 平 。 这 些 外 围 项 目 中 的 部 分 代码 (如 Keras ) 已 被 认为 具有 较 高 的 共性 价值 ， 
此 逐步 被 加 入 到 TensorFlow 主 项 目 之 中 。 

TensorFlow 运行 时 核心 库 底层 对 接 的 是 各 种 计算 库 和 通信 库 。 这 些 库 有 的 是 外 部 组 件 ( 如 用 
于 CPU 代数 计算 的 Eigen 库 )， 有 的 则 作为 TensorFlow 源 代码 的 一 部 分 集成 在 核心 库 内 部 ( 如 用 
于 GPU 并 行 计算 的 StreamExecutor 库 )。 用 户 在 开发 应 用 程序 时 看 不 到 这 些 库 的 细节 ， 只 需要 按 
照 软件 文档 安装 好 必要 的 外 部 依赖 包 即 可 。 

上 面 所 有 组 件 均 运 行 在 本 地 操作 系统 和 硬件 基础 设施 之 上 。 在 服务 器 端 运行 场景 , 最 常见 的 
宿主 操作 系统 是 Linux， 硬 件 一 般 为 x86 CPU 和 NVIDIA GPU。 在 移动 终端 运行 场景 ， 宿 主 操作 
系统 可 以 是 Android、iOS 等 ,硬件 一 般 为 ARM CPU 和 专用 的 人 工 智能 芯片 。TensorFlow 不 仅 
支持 原生 的 物理 环境 ， 对 虚拟 机 和 容器 也 完全 兼容 ， 这 构成 了 云 计算 环境 下 的 最 佳 实践 。 


1.4 小 结 


作为 一 套 优 秀 的 深度 学 习 计算 库 ，TensorFlow 在 新 一 波 人 工 智 能 浪潮 中 脱颖而出 。 它 源 于 
Google 公司 内 部 基于 海量 数据 开展 感知 和 预测 类 应 用 的 需求 ， 并 通过 围棋 大 战 向 公众 一 展 雄 姿 。 
依托 Google 团队 雄厚 的 科研 实力 ， 同 时 借助 开源 社区 的 集体 智慧 ，TensorFlow 已 经 成 为 了 一 套 
运算 性 能 强劲 、 框 架设 计 通用 、 语 言 接口 丰富 ,并 支持 生产 环境 部 署 和 端 云 协同 计算 的 通用 人 工 
智能 基础 平台 软件 。TensorFlow 的 构架 设计 灵活 而 开放 , 有 助 于 适应 多 样 的 应 用 场景 并 吸引 第 三 
方 开发 者 贡献 特性 。 我 们 相信 ， 在 当今 人 工 智 能 理论 进步 与 应 用 落地 并 举 的 时 代 ，TensorFlow 势 
必 会 引领 相关 研究 与 工程 领域 的 高 速 发 展 。 
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对 TensorFlow 有 了 基本 认识 之 后 ， 读 者 也 许 会 迫不及待 地 想 在 自己 的 计算 机 上 部 署 一 套 
TensorFlow 开发 和 运行 环境 。 安 装 TensorFlow 并 对 其 软件 整体 结构 与 关键 组 件 有 所 了 解 是 学 习 
TensorFlow 基础 用 法 和 算法 模型 开发 方法 的 前 提 。 本 章 首先 向 读者 介绍 在 Linux 操作 系统 上 安装 
TensorFlow 的 多 种 方法 ， 然 后 介绍 TensorFlow 的 主要 软件 依赖 项 ， 以 及 TensorFlow 的 源 代码 和 
安装 目录 组 织 结构 。 在 指导 读者 构建 TensorFlow 开发 和 运行 环境 的 同时 ， 我 们 构建 了 一 幅 学 习 
TensorFlow 的 宏观 视图 。 


2.1 安装 


TensorFlow 提供 多 种 语言 的 API， 具 体 包 括 Python、Java、Go、C 和 C++ 等 。 本 节 重 点 介绍 
TensorFlow Python 发 布 包 的 安装 和 开发 环境 搭建 方法 。 选 择 Python 的 原因 有 二 : 其 一 ，Python 
是 目前 机 器 学 习 和 深度 学 习 领 域 使 用 最 为 广泛 和 最 受 欢 迎 的 程序 设计 语言 ; 其 二 , Python 语言 本 
身 简单 易学 , 适合 新 手 快速 人 门 。TensorFlow 团队 为 Linux、macOS 和 Windows 这 3 大 主流 操作 
系统 分 别 适 配 了 CPU 和 GPU 版 本 的 Python 发 布 包 ( 从 TensorFlow 1.2 开始 ，TensorFlow 团队 不 
再 为 macOS 提供 GPU 版 本 的 官方 支持 )。 本 节 将 详细 介绍 TensorFlow 的 多 种 安装 方法 ， 具 体 包 
括 使 用 Anaconda、 原 生 pip 和 virtualenv 安装 ， 以 及 使 用 Docker 容器 安装 和 从 源 代 码 编译 安装 。 
本 节 以 Linux 发 行 版 一 一 Ubuntu 为 例 进行 说 明和 展示 。 


2.1.1 TensorFlow 安 装 概 述 


TensorFlow Python 发 布 包 支 持 使 用 多 种 Python 包 管 理工 具 进 行 安 装 。 常 见 的 Python 包 管 理 
工具 有 Anaconda、 原 生 pip 和 virtualenv。 同 时 ， 用 户 也 可 以 自己 下 载 TensorFlow 的 源 代码 进行 
编译 ， 然 后 得 到 对 应 的 whl 包 。whl 是 Python 软件 发 布 的 新 格式 ， 用 于 取代 曾经 风靡 一 时 的 egg 
包 格 式 。 除 此 以 外 ， 我 们 还 可 以 使 用 Docker 运行 包含 TensorFlow 二 进 制 包 的 容器 ， 实 现在 容器 
中 使 用 TensorFlow。 到 目前 为 止 ，TensorFlow 官方 主要 提供 了 以 上 5 种 安装 方法 。 根 据 它们 各 自 
在 Linux、macOS 和 Windows 上 的 支持 情况 , 我 们 整理 出 如 表 2-1 所 示 的 TensorFlow Python 发 布 
包 的 安装 适 配 情况 。 为 了 简化 说 明 ， 后 面 的 所 有 TensorFlow 发 布 包 均 特 指 TensorFlow Python 发 
布 包 。 
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表 2-1 TensorFlow 安装 适 配 表 
Anaconda 原生 pip virtualenv Docker 源 代码 
Linux 支持 支持 支持 支持 支持 
macOS 支持 支持 支持 支持 支持 
Windows 支持 支持 支持 不 支持 实验 性 支持 
在 加 速 器 便 件 方面 ，TensorFlow 官方 目前 主要 支持 NVIDIA 公司 的 GPU 设备 (后面 的 GPU 


特 指 NVIDIA GPU )。 如果 
序 和 配套 软件 ,具体 包括 
Neural Network library ) 和 CUDA 分 析 工 具 接口 
NVIDIA 显卡 驱动 程 


用 户 想 要 使 用 GPU 版 的 TensorFlow, 那么 必须 安装 相应 的 显卡 驱动 程 
一 计算 工具 包 CUDA 深度 神经 网 络 GPU 加 速 库 cuDNN( CUDA™ Deep 


libcupti-dev 开发 库 。 其 中 ，CUDA 宫 括 了 


序 和 基于 GPU 的 通用 计算 程序 , 我 们 将 在 2.2.4 节 中 详细 介绍 它 。cuDNN 是 


NVIDIA 为 深度 学 习 设 计 的 GPU 加 速 库 ， 它 对 常见 的 深度 神经 网 络 都 做 了 针对 性 的 优化 。 随 着 
GPU 技术 的 不 断 发 展 ,CUDA 和 cuDNN 也 在 不 断 更 新 , 表 2-2 给 出 了 TensorFlow 各 版 本 对 CUDA 


和 cuDNN 的 官方 支持 情况 。 
表 2-2 TensorFlow 各 版 本 对 CUDA 和 


cuDNN 的 支持 情况 〈 最 低 版 本 要 求 ) 


TensorFlow CUDA cuDNN 
0.8 ~ 0.11 7.0 4.0 
0.12 ~ 1.2 8.0 和 .1 
1.3~1.4 8.0 6.0 


因为 CUDA 的 开发 环境 对 系统 软 硬 件 存在 较 强 依赖 和 约束 ， 所 以 读者 应 该 检查 自己 的 机 器 


是 否 满足 以 下 3 项 指标 : 
口 GPU 是 否 支持 CUDA; 
口 系统 的 编译 器 和 工具 链 是 否 支 持 CUDA; 


根据 NVIDIA 官网 的 介绍 ， 
以 及 对 应 的 内 核 版 本 和 编译 器 ， 如 表 2-3 所 示 。 


口 系统 内 核 是 否 满足 特定 CUDA 版 本 的 安装 
我 们 整理 出 x86_64 架构 下 ，CUDA 8.0 当前 支持 的 Linux 发 行 版 


表 2-3 CUDA 8.0 支持 的 Linux 发 行 版 


Linux 发 行 版 系统 内 核 版 本 GCC glibc ICC PGI Clang 
RHEL 7.x 3.10 4.8.2 2.17: 15/16 16.3+ 3.8+ 
RHEL 6.x 2.6.32 4.4.7 2;12 15/16 16.3+ 3.8+ 
CentOS 7.x 3.10 4.8.2 人 | 了 15/16 16.3 十 3.8+ 
CentOS 6.x 2.6.32 4.4.7 2.12 15/16 16.3+ 3.8+ 
Fedora 23 4.2.3 5.3.1 2,22. 15/16 16.3+ 3.8+ 
openSUSE 13.2 3.16.6 4.8.3 2.19 15/16 16.3+ 3.8+ 
SLES 12 3.12.28 4.8.6 2.19 15/16 16.3+ 3.8+ 
SLES 11 SP4 3.0.101 4.3.4 23]1 15/16 16.3+ 3.8+ 
Ubuntu 16.04 4.4.0 S:3:1 2,23 15/16 16.3+ 3.8+ 
Ubuntu 14.04 3.13 4.8.2 2.19 15/16 16.3+ 3.8+ 
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关于 CUDA8.0 和 cuDNN 5.1 的 安装 和 配置 方法 ,读者 可 以 参考 NVIDIA 官网 的 详细 步骤 说 
明 (http:/docs.nvidia.com/cuda/cuda-installation-guide-linux )， 这 里 不 再 袭 述 。 下 面 我 们 介绍 一 下 
TensorFlow 开发 环境 的 安装 方法 。 


2.1.2 使 用 Anaconda 安 装 


Anaconda 是 目前 很 受 欢迎 的 Python 数据 科学 平台 ， 它 内 置 超过 1000 个 Python 数据 科学 软 
件 包 ， 并 同时 提供 社区 版 和 官方 发 布 版 的 软件 包 。 作 为 Python 软件 包 管理 工具 ， 它 也 同时 支持 
Python 2.7 和 Python 3.6 的 软件 包 管理 。Anaconda 在 主流 的 操作 系统 上 都 能 正常 运行 ， 如 Linux、 
macOS 和 Windows。 读 者 可 以 在 Anaconda 官网 上 (https:/www.continuum.io/downloads ) 查看 和 下 载 
相应 的 版 本 。 


在 使 用 Python 做 开发 时 ， 时 常 出 现 依赖 软件 包 版 本 冲突 的 情况 ， 而 Anaconda 提供 的 虚拟 开 
发 环境 有 效 解决 了 该 问题 。 它 支持 为 项 目 创建 特定 的 虚拟 环境 ,允许 每 个 虚拟 环境 拥有 一 套 独 立 
的 Python 软件 包 。 于 是 ， 我 们 就 可 以 在 不 同 的 虚拟 环境 中 开发 可 能 存在 冲突 的 Python 项目。 
使 用 Anaconda 安装 TensorFlow 主要 分 为 以 下 4 个 步 又 。 


(1) 下 载 并 安装 Anaconda。 安 装 结束 前 ， 脚 本 会 询问 我 们 是 否 将 Anaconda 路 径 添 加 到 $PATH 
环境 变量 ,并 将 更 新 的 $SPATH 保存 到 /home/<user>/.bashrc 文件 中 。 这 里 建议 选择 Yes。 这 样 一 来 ， 
再 次 打开 终端 时 ，shell 程序 便 能 自动 加 载 home/<user>/.bashrc 文件 中 更 新 的 $PATH。 此 外 ， 用 户 
亦 可 使 用 source 命令 ， 在 当前 shell 环境 中 引入 该 环境 变量 : 


$ bash Anaconda2-4.4.6.1-Linux-x86_64.sh 
$ source ~/ .bashrc 


(2) 使 用 Anaconda 的 命令 行 工 具 conda 创建 虚拟 开发 环境 。 其 中 -n 参数 表示 环境 名 称 ， 我 
们 将 其 命名 为 tensorflow。 同 时 ， 我们 指定 虚拟 环境 使 用 的 Python 版 本 为 2.7: 

$ conda create -n tensorflow python=2.7 

(3) 使 用 source activate 命令 激活 并 进入 Anaconda 创建 的 虚拟 开发 环境 : 


$ source activate tensorflow 
(tensorflow)$ # 进入 tensorflow 虚拟 开发 环境 


(4) 在 虚拟 开发 环境 中 安装 TensorFlow， 这 里 以 CPU 版 的 TensorFlow 1.2.1 为 例 : 


(tensorflow)$ pip install \ 
https://storage.googleapis.com/tensorflow/linux/cpu/ \ 
tensorflow-1.2.1-cp34-cp34m-l]inux_x86_64.whl 


至 此 ，TensorFlow 安装 完成 。 关 于 如 何 验证 TensorFlow 是 否 安装 成 功 ， 我 们 将 在 2.1.7 节 中 
统一 介绍 。 下 面 我 们 继续 介绍 如 何 使 用 原生 pip 安装 TensorFlow。 


2.1.3 ”使 用 原生 pip 安 装 
原生 pip 是 Python 社区 推荐 的 软件 包 安 装 和 维护 工具 。 针 对 Python 2.x 和 Python 3.x 版本， 
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该 工具 分 别提 供 pip 和 pip3 命令 。PyPA ( Python Packaging Authority ) 工作 组 维护 着 pip 的 软件 
包 下 载 源 。 在 开始 使 用 原生 pip 安装 TensorFlow 前 ， 我 们 应 该 首先 检查 本 地 安装 的 Python 版 本 : 


$ python -v 
Python 2.7.12 


这 里 强烈 推荐 使 用 pip 8.1 以 上 版 本 安装 TensorFlow。 更 老 版 本 的 pip 存在 一 些 bug， 有 可 能 
影响 TensorFlow 的 安装 和 使 用 。 下 面 我 们 以 Ubuntu 系统 为 例 , 说 明 Python 2.x 和 Python 3.x 升级 
pip 版 本 的 方法 : 


$ sudo apt-get install python-pip python-dev # 用 于 Python 2.x 
$ sudo apt-get install python3-pip python3-dev # 用 于 Python 3.x 


为 TensorFlow 已 经 加 入 了 PyPA 维护 的 软件 包 集合 ,所 以 可 以 使 用 原生 pip 直接 安装 TensorFlow。 
针对 不 同 Python 版 本 和 计算 设备 的 安装 命令 如 下 所 示 ， 用 户 可 以 依据 自己 的 环境 选择 其 一 


$ pip install tensorflow # 用 于 Python 2.X，CPU 版 (不 支持 GPU) 
$ pip3 install tensorflow # 用 于 Python 3.X，CPU 版 (不 支持 GPU) 
$ pip install tensorflow-gpu # 用 于 Python 2.Xx，GPU 版 (支持 CPU) 
$ pip3 install tensorflow-gpu # 用 于 Python 3.X，GPU 版 (支持 CPU) 


命令 执行 后 ，TensorFlow 软件 包 将 被 安装 到 操作 系统 全 局 或 者 当前 用 户 本 地 的 Python 库 目 
录 (这 取决 于 使 用 root 用 户 还 是 一 般 用 户 安装 )。 事 实 上 ， 原 生 pip 安装 方式 与 Anaconda 安装 方 
式 并 不 冲突 ， 二 者 可 以 配合 使 用 。 因 此 ， 用 户 也 可 以 在 Anaconda 虚拟 环境 中 执行 上 述 命令 ， 以 
便 将 TensorFlow 安装 到 虚拟 环境 。 


2.1.4 使 用 virtualenv 安 装 


virtualenv 与 Anaconda 类 似 ,也 是 一 种 Python 软件 包 管理 工具 ,同样 支持 创建 虚拟 开发 环境 。 
使 用 virtualenv 安装 TensorFlow 的 步骤 简 述 如 下 。 


(1) 安装 pip 和 virtualenv : 


$ sudo apt-get install python-pip python-dev python-virtualenv # 用 于 Python 2.x 
$ sudo apt-get install python3-pip python3-dev python-virtualenv # 用 于 Python 3.x 


(2) 使 用 virtualenv 创建 Python 虚拟 开发 环境 。virtualenv 命令 的 最 后 一 个 参数 为 虚拟 环境 
的 目录 名 : 


$ virtualenv --system-site-packages ~/tensorflow # 用 于 Python 2.x 
$ virtualenv --system-site-packages -p python3 ~/tensorflow # 用 于 Python 3.x 


(3) 激活 并 进入 虚拟 开发 环境 : 


$ source ~/tensorflow/bin/activate 
(tensorflow)$ # 进入 tensorflow 虚拟 开发 环境 


(4) 在 虚拟 开发 环境 中 安装 TensorFlow: 


(tensorflow)$ pip install tensorflow # 用 于 Python 2.X，CPU 版 (不 支持 GPU) 
(tensorflow)$ pip3 install tensorflow # 用 于 Python 3.x，CPU 版 (不 支持 GPU) 
(tensorflow)$ pip install tensorflow-gpu # 用 于 Python 2.X，GPU 版 (支持 CPU) 
(tensorflow)$ pip3 install tensorflow-gpu # 用 于 Python 3.Xx，GPU 版 (支持 CPU) 


2.1.5 ”使 用 Docker 安 装 


Docker 是 目前 最 为 流行 的 Linux 容 需 技术 ， 它 分 为 社区 版 【Community Edition，CE ) 和 企 
业 版 Enterprise Edition ，EE )。 前 者 主要 为 个 人 开发 者 和 小 型 研发 团队 提供 设计 容器 应 用 的 基本 
开发 环境 ， 后 者 主要 为 企业 开发 者 提供 更 加 安全 和 可 靠 的 商用 生产 环境 。Docker 官网 的 文档 
( https://docs.docker.com/engine/installation/ ) 介绍 了 在 各 种 操作 系统 上 安装 Docker 的 详细 步 又。 
现在 ,我 们 假设 读者 的 机 器 上 已 经 安装 好 Docker。 下 面 的 代码 展示 了 使 用 Docker 运行 TensorFlow 
容器 应 用 的 命令 格式 和 常用 输入 参数 : 

$ docker run -it -p hostPort:containerPort TensorFlowCPUImage 
其 中 ，hostPort:containerPort 是 可 选 参 数 。hostPort 表示 容器 映射 到 宿主 机 的 端口 号 ， 
containerPort 表示 容器 应 用 的 端口 号 。 如 果 读 者 想 要 在 命令 行 中 使 用 TensorFlow, 那么 无 需 输 
入 此 和 参数。 如果 读 者 想 要 在 Jupyter Notebook 中 使 用 TensorFlow， 那 么 需要 将 hostPort 和 
containerPort 设置 为 相同 的 端口 ， 如 8888。TensorFlowCPUImage 是 指使 用 TensorFlow CPU 
版 镜像 。Google 为 TensorFlow CPU 版 创建 了 4 种 不 同 的 镜像 文件 ， 并 保存 在 Google 的 镜像 仓库 
中 ,具体 如 下 所 示 。 


口 gcr.io/tensorflow/tensorflow: 二 进 制 镜像 。 

口 gcr.io/tensorflow/tensorflow:latest-devel: 二 进 制 和 源 代码 镜像 。 

口 gcr.io/tensorflow/tensorflow:version: 指定 版 本 的 二 进 制 镜像 。 

口 gcr.io/tensorflow/tensorflow:version-devel: 指定 版 本 的 二 进 制 和 源 代码 镜像 。 


我 们 使 用 TensorFlow CPU 版 二 进 制 镜像 ， 并 在 启动 容器 时 设置 相应 的 端口 号 。 下 面 的 命令 
成 功 运行 后 ,会 输出 Jupyter Notebook 服务 运行 的 地 址 ， 本 例 中 便 是 本 地 IP 的 8888 端口 对 应 的 
地 址 (http://localhost:8888 ): 

$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow 

如 果 想 要 使 用 GPU 版 本 的 TensorFlow 容器 应 用 ,那么 还 需要 安装 NVIDIA 开发 的 nvidia-docker 
( https://github.com/NVIDIA/nvidia-docker ) 工具 。 下面 的 代码 展示 了 如 何在 Ubuntu 上 安装 nvidia-docker: 


$ wget -P /tmp \ 
https://github.com/NVIDIA/nvidia-docker/releases/download/v1.60.1/ \ 
nvidia-docker 1.6.1-1_amd64.deb 

$ sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb 


一 


# 安装 完成 后 ， 测 试 nvidia-smi 是 否 可 用 
$ nvidia-docker run --rm nvidia/cuda nvidia-smi 


TensorFlow GPU 版 的 镜像 文件 同样 分 为 4 种 ， 如 下 所 示 。 


口 gcr.io/tensorflow/tensorflow:latest-gpu: 二 进 制 镜像 。 

口 gcr.io/tensorflow/tensorflow:latest-devel-gpu: 二 进 制 和 源 代 码 镜像 。 
口 gcr.io/tensorflow/tensorflow:version-gpu: 指定 版 本 的 二 进 制 镜像 。 
口 gcr.io/tensorflow/tensorflow:version-devel-gpu: 指定 版 本 的 二 进 制 和 源 代码 镜像 。 
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启动 TensorFlow GPU 版 容器 应 用 的 输入 参数 与 CPU 版 类 似 ， 只 是 启动 命令 需要 换 为 
nvidia-docker， 如 下 所 示 : 
$ nvidia-docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow:latest-gpu 


下 面 我 们 介绍 如 何 使 用 源 代码 编译 安装 TensorFlow。 


2.1.6 ”使 用 源 代码 编译 安装 


为 了 保证 软件 对 操作 系统 和 硬件 平台 的 通用 性 , Google 官方 发 布 的 TensorFlow whl 包 没 有 使 
用 过 多 的 编译 优化 选项 ， 如 XLA、AVX、SSE 等 。 如 果 读 者 想 要 打开 这 些 编译 优化 选项 来 提升 
TensorFlow 的 计算 性 能 ,那么 必须 使 用 源 代码 编译 安装 的 方式 。TensorFlow 官方 支持 在 Linux 和 
macOS 操作 系统 上 进行 源 代 码 编译 。 目 前 ， 对 于 Windows， 只 是 提供 了 实验 性 的 源 代码 编译 方案 。 

TensorFlow 源 代 码 编译 的 目标 输出 是 TensorFlow whl 包 ， 构 建 工 具 是 Google 开源 的 一 套 软 
件 构建 工具 一 一 Bazel。 在 开始 源 代 码 编译 前 ， 用 户 应 该 确保 开发 环境 上 已 经 安装 好 Bazel 以 及 
TensorFlow 依赖 的 第 三 方 Python 软件 包 。 如 果 想 要 编译 GPU 版 的 TensorFlow whl 软件 包 ， 还 需 
要 安装 配套 的 NVIDIA CUDA 和 cuDNN 。 下 面 我 们 仍然 以 Ubuntu 为 例 ， 介 绍 源 代 码 编译 
TensorFlow 的 流程 。 


(1) 安装 Bazel 软件 构建 工具 ( 在 其 他 操作 系统 上 安装 Bazel 的 方法 可 参考 其 官方 网 站 的 文 


档 : 
# 1. 安 装 Bazel 依赖 的 JDK 8 
$ sudo apt-get install openjdk-8-jdk 
# 2. 添 加 Bazel 发 布 包 URL 到 apt 的 下 载 源 
$ echo "deb [arch=amd64] http://storage.googleapis.com/bazel-apt stable jdk1.8" | \ 
sudo tee /etc/apt/sources.1ist.d/bazel.list 
$ curl https://bazel.build/bazel-release.pub.gpg | sudo apt-key add - 
# 3. 使 用 apt 安装 Bazel 
$ sudo apt-get update && sudo apt-get install bazel 
# 4. (可 选 步骤 ) 当 Bazel 版 本 较 低 时 ， 使 用 apt 更 新 Bazel 
$ sudo apt-get upgrade bazel 


(2) 安装 TensorFlow 依赖 的 第 三 方 Python 软件 包 : 


$ sudo apt-get install python-numpy python-dev python-pip python-wheel # 用 于 Python 2.x 
$ sudo apt-get install python3-numpy python3-dev python3-pip python3-wheel # 用 于 Python 3.x 


这 里 主要 包括 下 面 4 个 包 。 
D numpy: 经 典 的 数据 处 理 软 件 包 。 
口 dev: Python 扩展 开发 工具 包 。 
口 pip: 安装 和 管理 Python 软件 包 的 工具 包 。 
口 wheel: Python 软件 打包 和 发 布 工具 包 。 
(3) 〈 可 选 步骤 ) 安装 适 配 当 前 操作 系统 的 NVIDIACUDA 和 cuDNN, 以 及 CUDA 分 析 工 具 
接口 libcupti-dev 开发 库 。 
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(4) 从 GitHub 上 克隆 TensorFlow 源 代码 , 并 将 其 切换 到 稳定 的 发 布 分 支 , 如 TensorFlow 1.2: 


$ git clone https://github.com/tensorflow/tensorflow.git 
$ cd tensorflow 


$ git checkout r1.2 
又 、 


(5) 运行 configure 脚本 , 配置 TensorFlow 编译 选项 。 该 脚本 位 于 TensorFlow 项 目 源 代 码 的 根 
目录 。 下 面 的 命令 行 输出 展示 了 用 户 可 配置 的 编译 选项 ， 包 括 Python 路 径 、 是 和 否 支 持 Google 云 
平台 、 是 否 支 持 HDFS、 是 否 使 用 XLA 编译 优化 、 是 否 使 用 OpenCL、 是 否 使 用 CUDA 等 。 对 
于 期 望 开启 的 选项 ， 用 户 可 以 根据 提示 ,输入 “y” 或 相应 软件 安装 目录 : 


$ ./configure 
Please specify the location of python. [Default is /usr/bin/python]: /usr/bin/python2.7 
Please specify optimization flags to use during compilation when bazel option "--config=opt" 
is specified [Default is -march=nativel]: 
Do you wish to use jemalloc as the malloc implementation? [Y/n] 
jemalloc enabled 
Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] 
No Google Cloud Platform support will be enabled for TensorFlow 
Do you wish to build TensorFlow with Hadoop File System support? [y/N] 
No Hadoop File System support will be enabled for TensorFlow 
Do you wish to build TensorFlow with the XLA just-in-time compiler (experimental)? [y/N] 
No XLA JIT support will be enabled for TensorFlow 
Found possible Python library paths: 

/usr/local/lib/python2.7/dist-packages 

/usr/lib/python2.7/dist-packages 
Please input the desired Python library path to use. Default is 
[/usr/local/lib/python2.7/dist-packages] 
Using python library path: /usr/local/lib/python2.7/dist-packages 
Do you wish to build TensorFlow with OpenCL support? [y/N] 
No OpenCL support will be enabled for TensorFlow 
Do you wish to build TensorFlow with CUDA support? [y/N] Y 
CUDA support will be enabled for TensorFlow 
Please specify which gcc should be used by nvcc as the host compiler. [Default is /usr/bin/gcc]: 
Please specify the Cuda SDK version you want to use, e.g. 7.6. [Leave empty to use system default]: 
8.0 
Please specify the location where CUDA 8.6 toolkit is installed. Refer to README.md for more 
details. [Default is /usr/local/cudal: 
Please specify the cuDNN version you want to use. [Leave empty to use system default]: 5 
Please specify the location where cuDNN 5 library is installed. Refer to README.md for more 
details. [Default is /usr/local/cudal: 
Please specify a list of comma-separated Cuda compute capabilities you want to build with. 
You can find the compute capability of your device at: https://developer.nvidia.com/cuda-gpus. 
Please note that each additional compute capability significantly increases your build time 
and binary size. 
[Default is: "3.5,5.2"]: 3.6 
Setting up Cuda include 
Setting up Cuda lib 
Setting up Cuda bin 
Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI 1ib64 
Configuration finished 
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当 用 户 选 择 编译 生成 GPU 版 的 TensorFlow whl 包 时 ，configure 脚本 将 会 为 CUDA 库 文 件 创 
建 软 链接 。 因 此 ， 如 果 用 户 改 变 了 操作 系统 的 CUDA 库 文 件 路 径 ， 就 必须 重新 运行 configure 脚 
本 配置 TensorFlow 编译 选项 ， 以 确保 使 用 Bazel 编译 源 代码 时 软 链 接 可 用 。 

(6) 编译 TensorFlow whl 软件 包 。 


首先 ， 我们 需要 编译 TensorFlow 源 代码 ， 生 成 对 应 的 二 进 制 文件 。 命 令 如 下 : 


# CPU 版 
$ bazel build --config=opt //tensorflow/tools/pip_package:build pip_package 
# GPU 版 


$ bazel build --config=opt --config=cuda //tensorflow/tools/pip_package:build pip_package 
编译 TensorFlow 源 代码 需要 使 用 大 量 内 存 。 如 果 用 户 没有 特别 充足 的 内 存 资源 ， 那 么 可 以 
手动 设置 内 存 限制 ， 如 --local_resources 2648, .5,1.6。TensorFlow 官方 发 布 的 whl 包 均 使 
用 GCC 4 编译。 如 果 用 户 使 用 GCC 5 或 更 高 版 本 编译 ， 为 了 兼容 老 版 本 的 ABI， 建 议 手 动 指定 
参数 - -cxxopt="-D_GLIBCXX_USE_CXX11_ABI=6" 。 以 上 两 个 手动 设置 项 均 是 bazel build 命令 
的 输入 参数 。 

接 下 来 , 构建 TensorFlow 的 whl 包 。bazel build 命令 执行 成 功 后 , 会 生成 build_pip_package 
脚本 ， 用 于 构建 whl 包 。 下 面 展 示 执 行 该 脚本 生成 TensorFlow whl 包 的 方法 : 


# /tmp/tensorflow_pkg 指定 了 生成 的 TensorFlow whl 包 的 路 径 ， 用 户 可 以 替换 
$ bazel-bin/tensorflow/tools/pip_package/build pip package /tmp/tensorflow pkg 


(7) 安装 TensorFlow， 具 体 的 安装 方法 与 安装 TensorFlow 官方 提供 的 whl 包 类 似 : 


$ sudo pip install /tmp/tensorflow pkg/tensorflow-1.2.0-py2-none-any.whl 


2.1.7 Hello TensorFlow 


使 用 前 面 介 绍 的 方法 安装 TensorFlow 后 ， 我 们 需要 验证 TensorFlow 是 否 安装 成 功 。 只 要 拥 
有 编程 背景 的 人 ， 一 定 都 知道 Hello World!。 不 出 俗套 ， 这 里 我 们 也 使 用 TensorFlow 打印 Hello 
TensorFlow!， 来 验证 安装 的 正确 性 : 

$ python 

>>> import tensorflow as tf 

>>> hello = tf.constant('Hello, TensorFlow!') 

>>> sess = tf.Session() 


>>> print(sess.run(hello)) 
Hello TensorFlow! 


如 果 程 序 成 功 打印 Hello TensorFlow!, 则 说 明 安装 成 功 。 如 果 出 现 导 入 TensorFlow 软件 包 错 
则 说 明 安 装 失 败 。 

一 般 而 言 ， 在 Python 解释 器 中 编写 程序 并 不 是 一 种 高 效 的 做 法 。 我 们 推荐 普通 用 户 使 用 一 
些 成 熟 的 Python IDE 或 Jupyter Notebook 来 开发 。Jupyter Notebook 是 一 套 Python 交互 式 编程 环 
境 ， 它 支持 同时 编辑 多 个 文件 ， 并 以 Web 形式 提供 服务 。 下 面 我 们 简单 介绍 Jupyter Notebook 的 
安装 和 使 用 方法 。 


| 
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(1) 安装 并 启动 Jupyter Notebook。 服 务 默认 运行 在 本 地 的 8888 端口 ， 用 户 在 浏览 器 中 输入 
对 应 的 URL (http://localhost:8888 ) 即 可 打开 服务 : 

$ pip install jupyter 

$ jupyter notebook 

[I 23:28:44.166 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ 

[I 23:28:44.166 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice 

to skip confirmation). 


(2) 创建 Python 交互 式 环境 ， 图 2-1 给 出 了 相应 操作 菜单 和 命令 的 位 置 。 
2Jupyter 


Files Running Clusters Conda 


Select ems to perform actions on them. Upload |New= OO 
>- 本/ test Text Fie 
ea Folder 
Terminal 


Notebook fist empty. 


图 2-1 在 Jupyter Notebook 中 创建 Python 交互 式 环境 


(3) 编写 Python 应 用 程序 ， 图 2-2 给 出 了 打印 Hello TensorFlow! 的 示例 。 


J U pyte 『 Untitled Last checkpoint afew seconds ago (unsaved changes) 
File Edit View Insert Cell Kernel Help 


四 | 直 3 外 人 个 业 HH 图 CCcode 4 | 固 Cellloolbar 6@ oo 


In [1]: import tensorflow as tf 
hello = tf.constant( 'Hello, TensorFlow!') 
sess = tf.Session() 
print(sess.run(hello)) 
Hello, TensorFlow! 


| In [ ]: 
图 2-2 在 Jupyter Notebook 中 编写 Python 应 用 程序 


Jupyter Notebook 是 所 见 即 所 得 的 交互 式 编程 环境 。 用 户 可 以 指定 执行 某 个 输入 的 代码 块 ， 
输出 结果 将 直接 打印 在 该 代码 块 下 方 。 


现在 ， 我 们 已 经 完成 了 TensorFlow 开发 环境 的 搭建 。 在 上 述 多 种 安装 方法 中 ， 用 户 应 该 根 
据 自 身 情 况 选 择 合适 的 方法 。 当 出 现 安 装 问题 时 ， 可 以 查看 TensorFlow 官网 整理 的 常见 问题 和 


解答 (https://www.tensorflow.org/install/install_linux#common_installation_problems )。 


2.2 依赖 项 
TensorFlow 的 设计 实现 引入 了 很 多 工具 软件 和 开发 库 , 这 些 软件 和 库 有 的 来 自 Google 公司 ， 
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有 的 来 自 第 三 方 开发 者 ， 有 些 以 源 代 码 或 二 进 制 形式 集成 到 了 TensorFlow 的 源 代码 发 布 包 或 二 进 
制 安装 包 ,， 有些 则 作为 编译 时 或 运行 时 的 外 部 依赖 项 。 审 视 这 些 依 赖 项 , 可 以 看 出 开放 的 生态 系统 
对 于 TensorFlow 发 展 的 重要 性 。 本 节 挑 选 几 个 相对 重要 的 、 具 有 代表 性 的 外 部 依赖 项 加 以 介绍 。 


2.2.1 ”Bazel 软 件 构 建 工 具 


Bazel ( http://bazel.build ) 是 Google 开源 的 一 套 软 件 构建 工具 。 多 数 开 发 人 员 可 能 比较 熟悉 
GNU Autotools 、CMake 和 Apache Ant 等 经 典 的 构建 工具 。Bazel 的 功能 定位 与 这 些 软件 类 似 , 但 
具有 一 些 独 特 的 优势 ， 具 体 如 下 。 


口 多 语言 支持 : 为 C++、Java、Python 等 语言 提供 原生 的 构建 规则 ， 并 允许 以 简易 的 方式 

开发 针对 新 语言 的 扩展 。 

口 高 级 构建 语言 : 构建 规则 描述 语言 具有 语法 简洁 、 高 度 抽象 ， 却 不 失 功 能 丰富 的 特点 ， 

有 助 于 用 户 快速 写 出 正确 的 构建 规则 。 

口 多 平台 支持 : 除 支 持 类 Unix 操作 系统 外 ， 也 支持 Android 等 移动 平台 ， 并 在 新 版 本 中 提 

供 对 Windows 平 台 的 支持 。 

口 可 重 现 性 : 以 严格 的 依赖 关系 为 依据 ， 在 提供 并 行 编译 和 增 量 编译 能 力 的 同时 ， 保 证 每 

次 编译 的 结果 相同 。 

口 可 伸缩 性 : 具有 高 效 的 增 量 代码 分 析 能 力 ， 支 持 数 十 万 行 代码 量 级 的 大 规模 应 用 程序 
构建 。 

这 些 优 势 恰恰 满足 了 TensorFlow 的 技术 特征 与 构建 需求 ,因此 Bazel 成 为 TensorFlow 默认 的 
软件 构建 工具 。 


Bazel 使 用 工作 空间 (workspace )、 包 (package ) 和 目标 (target ) 三 层 抽象 组 织 竺 构建 的 对 象 。 


口 工作 空间 : 代表 竺 构建 的 软件 整体 ， 它 映射 到 文件 系统 中 的 一 个 目录 ， 一 般 是 软件 源 代 
码 包 的 顶层 目录 。 工 作 空间 使 用 名 为 WORKSPACE 的 文件 描述 元 信息 ， 主 要 的 元 信息 包 
括 工作 空间 名 称 与 软件 的 外 部 依赖 项 。Bazel 支持 在 构建 时 通过 本 地 复制 或 网 络 下 载 等 多 
种 方式 获取 依赖 项 。 

口 包 : 代表 一 组 具有 逮 辑 关联 的 竺 构建 实体 ， 通 常 映射 到 软件 内 部 的 特定 功能 模块 ， 并 使 
用 独立 的 目录 组 织 该 模块 的 所 有 源 文件 。 包 具有 名 为 BUILD 的 描述 文件 ， 该 文件 除了 描 
述 包 的 元 信息 外 ， 其 主体 内 容 是 一 系列 目标 构建 规则 的 集合 。 包 可 以 具有 层次 般 套 关 
系 ， 典 型 的 髋 套用 法 是 将 单元 测试 包 氛 入 到 对 应 的 功能 模块 包 中 。 

口 目标 : 指 包 内 部 管理 的 、 具 有 独立 构建 规则 的 竺 构建 实体 ， 它 通常 映射 到 一 条 或 一 组 编 
译 器 命令 ， 用 于 生成 软件 模块 中 独立 的 目标 代码 文件 (如 .o 文件 ) 或 可 执行 文件 。 目 标 
的 完整 名 称 可 以 用 标签 (label ) 描述 ， 其 格式 一 般 为 //[ 包 名 ]:[ 目 标 名 ]。 例 如 ， 
TensorFlow 核心 层 数 据 流 图 操作 模块 的 完整 目标 名 ( 标签 ) 为 //tensorflow/core:ops。 
在 定义 依赖 项 等 场合 指定 同一 包 中 的 目标 时 ，//[ 包 和 名] 可 以 省 上 略 。 
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Bazel 目标 构建 规则 的 描述 语法 比较 直观 ， 它 由 一 个 规则 名 称 和 一 组 属性 构成 。 规 则 名 称 取 
决 于 待 构 建 实体 所 使 用 的 编程 语言 及 期 待 的 输出 文件 类 型 。TensorFlow 常用 的 规则 包括 用 于 构建 
C++ 库 文件 的 cc_library、 用 于 构建 Python 库 文件 的 py_library， 以 及 用 于 编译 CUDA 库 文 
件 的 tf_cuda_library 自 定 义 规则 等 。 规 则 的 属性 一 般 包括 构建 过 程 所 需 的 源 文件 名 、 依 赖 项 
名 、 编 译 需 选项 等 。 下 面 给 出 一 组 构建 规则 描述 语言 的 示例 : 


cc_library( 
name = "gradients", 
srcs = ["framework/gradients.cc"], 
hdrs = ["framework/gradients.h"], 
deps = [ 
":cc_ops", 
":grad_op_registry", 
":ops", 
":scope", 
"//tensorflow/core:core_cpu", 
"//tensorflow/core:framework", 
"//tensorflow/core:1ib", 
"//tensorflow/core:lib internal", 


]， 


) 

该 规则 用 于 构建 TensorFlow C++ API 中 的 梯度 计算 接口 ， 以 便 生成 对 应 的 目标 文件 。name、 
srcs、hdrs、deps 属性 分 别 定义 了 目标 名 称 ， 以 及 构建 过 程 所 需 的 源 文件 、 头 文件 和 依赖 项 集 
合 。 其 中 ，cc_ops 等 依赖 项 来 自 当 前 包 (tensorflow/cec )，core_cpu 等 依赖 项 来 自 核 心 层 包 
( tensorflow/core )。 开 发 者 无 须 关 心 编译 器 的 命令 行 参数 ， 也 无 须 考虑 操作 系统 的 目标 文件 扩展 名 。 
Bazel 会 自动 处 理 这 些 细节 ， 生 成 正确 的 编译 器 命令 ， 进 而 编译 出 目标 文件 。Bazel 甚至 能 够 分 析 
C++ 源 代 码 ， 检 查 其 实际 依赖 项 与 声明 依赖 项 的 差异 ， 反 馈 给 开发 者 ， 从 而 避免 潜在 错误 的 发 生 。 

使 用 Bazel 构建 已 经 定义 好 目标 规则 的 软件 时 ， 只 需要 运行 bazel 命令 ,该 命令 的 一 般 参 数 
格式 为 bazel [ 子 命令 ] [选项 ] [目标 名 (标签) ]。 常 用 的 子 命令 包括 build (构建 )、test ( 测 
试 ) 和 clean (清理 ) 等 ， 常 用 的 选项 包括 编译 器 优化 开关 和 详细 日 志 开关 等 。 我 们 已 在 2.1.6 
节 中 看 到 了 使 用 Bazel 构建 TensorFlow 安装 包 的 命令 。 除 此 之 外 , 在 对 TensorFlow 进行 二 次 开发 
时 ， 开 发 者 常常 需要 使 用 Bazel 构建 并 运行 测试 用 例 ， 这 时 bazel test 命令 将 有 用 武之 地 。 


2.2.2 ”Protocol Buffers 数据 结构 序列 化 工具 


ProtocolBuffers ( https://developers.google.com/protocol-buffers/ ) 是 Google 开发 的 一 套数 据 结 
构 序 列 化 工具 。 自 2008 年 开源 以 来 ， 该 工具 已 被 互联 网 、 大 数据 等 领域 的 大 量 软件 广泛 使 用 。 
Protocol Buffers 提供 一 套 与 操作 系统 和 编程 语言 无 关 的 数据 结构 定义 语法 及 序列 化 表示 方法 。 用 
户 基于 Protocol Buffers 语法 编写 的 数据 结构 定义 文件 ( .proto 文件 ) 可 以 通过 Protocol Buffers 编 
译 器 (如 protoc ) 生成 Ct+、Java、Python 等 多 种 语言 的 数据 结构 定义 代码 。 这 些 代码 不 但 包含 
基本 数据 的 成 员 定义 ， 也 包含 用 于 访问 成 员 、 复 制 对 象 ， 以 及 对 数据 结构 进行 序列 化 和 反 序 列 化 
操作 的 辅助 方法 或 类 型 。 将 这 些 自动 生成 的 代码 集成 到 应 用 程序 中 , 可 以 实现 跨 平台 、 跨 语言 的 
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结构 化 数据 交换 ,同时 减轻 开发 者 处 理 语言 差异 和 编写 重复 逻辑 的 开销 , 有 助 于 提升 软件 开发 时 
和 运行 时 两 方面 的 效率 。 

这 里 我 们 以 TensorFlow 核心 数据 结构 之 一 的 TensorProto 为 例 ， 说 明 Protocol Buffers 的 基 
本 用 法 。TensorProto 是 TensorFlow 内 部 对 张 量 数据 的 一 种 抽象 , 在 C++、Python API 层 及 C++ 
核心 层 均 有 使 用 ,多 用 于 张 量 的 进程 间 通 信和 持久 化 存储 等 场合。 因此 ， 它 对 于 序列 化 功能 和 多 
语言 支持 具有 明确 的 需求 , 很 适合 使 用 Protocol Buffers 定义 。TensorProto 的 数据 结构 定义 文件 
是 tensorflow/core/framework/tensor.proto， 其 关键 内 容 摘录 如 下 : 


syntax = "proto3"; 
package tensorflow; 


import "tensorflow/core/framework/tensor_shape.proto"; 
import "tensorflow/core/framework/types.proto"; 


message TensorProto { 
DataType dtype = 1; 
TensorShapeProto tensor_shape = 2; 
int32 version_number = 3; 
bytes tensor content = 4; 
repeated float float val = 5 [packed = truel]; 

}; 

可 以 看 出 ，.proto 文件 主要 由 语法 声明 、 包 名 定义 、 文 件 引 用 和 消息 ( 即 数据 结构 ) 定义 等 
部 分 构成 ， 其 中 核心 内 容 是 消息 定义 。 消 息 内 部 可 以 包含 int32、bytes 等 基本 类 型 字段 ， 也 可 
以 包含 DataType 、TensorShapeProto 等 自 定义 类 型 字段 。repeated 关键 字 修 饰 的 字段 称 为 重 
复 型 字段 , 类 似 于 编程 语言 中 的 数组 或 向 量 。 所 有 抽象 数据 类 型 均 会 被 映射 到 目标 语言 中 的 实际 
数据 类 型 。 当 构建 TensorFlow 源 代码 包 时 ，Bazel 会 调用 Protocol Buffers 编译 器 ， 创 建 名 为 
tensor.pb.h 和 tensor pb2.py 的 C++ 与 Python 数据 结构 定义 文件 。 尽 管 这 些 自动 生成 的 文件 在 实 
现 上 相对 宛 长 且 星 深 , 但 其 功能 和 效率 一 般 不 亚 于 普通 开发 者 自行 编写 的 数据 结构 代码 , 使 用 也 
非常 简单 。 以 C++ 语言 为 例 ，protoc 能 够 生成 TensorProto 类 ， 为 之 添加 构造 、 析 构 函 数 和 赋 
值 操作 符 等 辅助 函数 。 对 于 其 中 的 基本 类 型 字段 , 用户 可 以 使 用 与 字段 同名 的 方法 读 取 其 值 , 使 
用 set_[ 字 段 名 ] 方 法 修改 其 值 。 基 类 Message 提供 的 serializeToString、ParseFromString 
方法 则 可 以 用 于 TensorProto 对 象 的 序列 化 和 反 序 列 化 。 

为 了 实现 跨 平台 、 跨 语言 的 远程 过 程 调用 (RPC )， 同 时 简化 分 布 式 系统 组 件 间 协同 机 制 的 
设计 ，Google 在 Protocol Buffers 基础 上 开发 并 开源 了 gRPC 通信 库 ( http://www.grpc.io )。gRPC 
使 用 Protocol Buffers 语法 描述 RPC 的 请 求 、 响 应 消息 类 型 和 函数 原型 ，Protocol Buffers 能 够 为 
之 生成 多 种 编程 语言 的 客户 端 与 服务 端的 接口 代码 一 一 这 得 益 于 Protocol Buffers 的 插件 机 制 , 该 
机 制 可 以 扩展 .proto 文件 的 语法 和 代码 生成 器 的 功能 。gRPC 能 够 将 函数 调用 方 与 实现 方 在 空间 上 
解 耦 ， 人 允许 双方 以 异步 的 时 序 协同 工作 。gRPC 底层 使 用 HTTP/2 作为 通信 协议 ， 其 内 部 实现 了 
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支持 非 阻塞 异步 调用 的 并 发 调度 引擎 。TensorFlow 的 进程 间 通 信 机 制 ， 以 及 Serving 等 周边 组 件 
的 交互 机 制 均 基 于 gRPC 框架 开发 。 下 面 的 示例 代码 给 出 了 TensorFlow 的 进程 间 通 信和 框架 中 , 有 
关 数 据 流 图 注册 操作 的 gRPC 服务 定义 : 


message RegisterGraphRequest { 
string session_handle = 1; 
GraphDef graph_def = 2; 
bool has_control _ flow = 3 [deprecated = true]; 
Graphoptions graph_options = 4; 
DebugOptions debug options = 5; 


} 


message RegisterGraphResponse { 
string graph_handle = 1; 


rpc RegisterGraph(RegisterGraphRequest) returns (RegisterGraphResponse); 


这 上段 代码 来 自 tensorflow/core/protobuf 目录 下 的 workerproto 和 worker_service.proto 文件 。 
Protocol Buffers 及 其 gRPC 插件 以 这 些 文件 作为 输入 ,为 TensorFlow 生成 worker 服务 的 C++ 接口 
代码 。 


Protocol Buffers 和 gRPC 均 是 TensorFlow 编译 时 集成 的 依赖 项 。 用 户 在 使 用 TensorFlow 二 进 
制 包 时 ， 无 须 独 立 安装 这 两 个 软件 。Bazel 在 构建 TensorFlow 源 代码 包 时 ， 能 够 自动 下 载 并 编译 
这 两 个 软件 。 


2.2.3 ”Eigen 线 性 代数 计算 库 


Eigen ( http://eigen.tuxfamily.org ) 是 一 套 基 于 C++ 模板 技术 开发 的 线性 代数 计算 库 。 该 库 由 
众多 开源 贡献 者 共同 维护 , 托管 于 TuxFamily 社区 , 现 已 被 包括 TensorFlow 在 内 的 大 量 科 学 和 工 
程 计算 类 软件 使 用 。 作 为 一 款 基 础 的 数学 库 ，Eigen 具有 通用 性 、 高 效 性 、 易 用 性 和 可 靠 性 等 特 
征 。 它 支持 复数 、 向 量 、 和 矩阵 等 多 种 数据 类 型 ,提供 大 量 经 典 矩 阵 算 法 和 几何 算法 的 实现 ,在 算 
法 实现 中 充分 利用 了 主流 CPU 指令 集 和 编译 器 的 高 级 优化 特性 。Eigen 仅 依赖 于 标准 C++ 库 ， 这 
使 得 它 能 够 兼容 多 种 编译 器 和 操作 系统 。 基 于 C++ 模板 的 技术 方案 一 方面 可 以 为 数据 类 型 的 扩展 和 
算法 的 特 化 实现 提供 可 能 , 有 助 于 增强 库 的 灵活 性 ; 另 一 方面 也 可 以 通过 元 编程 (metaprogramming ) 
技巧 将 部 分 计算 量 由 运行 时 迁移 到 编译 时 , 有 助 于 提升 软件 效率 。 尽 管 Eigen 的 功能 是 自 包 含 的 ， 
然而 它 同样 支持 使 用 其 他 计算 加 速 技 术 提升 自身 的 性 能 。 例如 , 可 以 使 用 OpenMP 实现 多 线程 并 
行 计算 ， 也 可 以 使 用 Intel MKL 实现 算法 向 量化 加 速 。 


Eigen 社区 对 于 开源 贡献 者 非常 开放 。 项目 源 代码 包 的 unsupported 目录 包含 了 一 系列 第 三 方 
贡献 的 、 尚 未 由 官方 提供 支持 的 组 件 。 这 些 第 三 方 组 件 既 包括 对 数据 结构 和 算法 的 扩展 ,也 包括 
服务 于 计算 逻辑 的 功能 支撑 组 件 , 例如 用 于 实现 线程 调度 的 线程 池 组 件 以 及 用 于 接 入 加 速 器 硬件 
的 适 配 层 组 件 等 。 
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TensorFlow 使 用 了 Eigen 提供 的 多 种 组 件 ， 这 些 组 件 大 多 用 于 在 CPU 和 OpenCL GPU 设备 上 
实现 TensorFlow 的 计算 类 操作 。 为 了 在 精度 要 求 不 高 的 场景 下 节约 计算 和 存储 开销 ，TensorFlow 
通常 使 用 16 位 的 Eigen::half 浮 点 类 型 保存 参数 。 针 对 矩阵 存储 和 计算 需求 ，TensorFlow 引入 
了 Eigen: :Matrix 类 型 以 及 Eigen: :PartialPivLU、Eigen: :HouseholderQR 等 多 种 分 解 算法 。 
于 TensorFlow 以 张 量 作 为 核心 数据 结构 ， 它 的 许多 算法 实现 借助 了 Eigen 第 三 方 组 件 中 的 
Eigen: :Tensor 类 型 及 其 相关 函数 。Eigen: :Tensor 类 型 提供 张 量 的 高 效 存储 和 访问 能 力 , 以 及 
降 维 、 缩 并 和 卷 积 等 常用 算法 的 实现 ， 这 些 算法 实现 已 针对 多 种 计算 设备 分 别 进 行 了 优化 。 
Eigen: :Tensor 组 件 基于 C++ 11 的 特性 开发 , 这 一 点 不 同 于 仅 依赖 C++ 98 特性 的 Eigen 官方 组 件 。 

此 外 ，TensorFlow 也 使 用 Eigen 第 三 方 组 件 中 的 线程 池 模块 一 一 Eigen::ThreadPoo1。 事 实 
上 上 ， 这 个 模块 正 是 来 自 Google 公司 的 贡献 。Eigen: :ThreadPool 能 够 以 线程 池 抽 象 有 效 管理 多 
核 CPU 的 计算 资源 ， 将 计算 任务 有 序 地 安排 在 不 同 线程 上 并 发 执行 ， 并 在 任务 量 超过 资源 量 的 
情况 下 对 任务 进行 排队 。 为 了 以 较 低 的 开发 成 本 接 人 OpenCL GPU 设备 ，TensorFlow 还 引入 了 
Codeplay 公司 贡献 的 Eigen: :SyclDevice 设备 抽象 及 其 相关 组 件 。 这 些 组 件 使 得 TensorFlow 能 
够 简单 地 以 模板 参数 蔡 换 方式 ， 将 CPU 上 的 算法 迁移 到 OpenCL GPU。 


Eigen 也 是 TensorFlow 编译 时 集成 的 依赖 项 ， 不 需要 用 户 独立 安装 。 


2.2.4 CUDA 统 一 计算 设备 架构 


CUDA ( https://developer.nvidia.com/cuda-zone ) 是 NVIDIA 公司 推出 的 一 种 用 于 并 行 计算 的 
软 人 硬件 架构 ， 发 布 于 2007 年 。 该 架构 以 通用 计算 图 形 处 理 器 (GPGPU ) 作为 主要 的 人 硬件 平台 ， 
提供 一 组 用 于 编写 和 执行 通用 计算 任务 的 开发 库 与 运行 时 环境 ,CUDA 架构 能 够 充分 利用 原本 为 
图 形 泻 染 而 设计 的 众 核 GPU ， 发 挥 其 并 行 处 理 、 浮 点 计算 和 可 编程 流水 线 的 技术 优势 ， 从 而 为 
计算 密集 型 和 数据 密集 型 的 任务 提供 高 效 的 算 力 支持 CUDA 架构 最 初 在 高 性 能 计算 领域 轿 露 头 
角 ， 随 后 也 被 引入 了 互联 网 和 大 数据 生态 系统 。 自 从 深度 学 习 技 术 在 工业 界 流 行 之 后 ，CUDA 架 
构 因 能 够 很 好 地 适 配 神 经 网 络 算法 的 并 行 加 速 需求 , 已 成 为 深度 学 习 领 域 , 特别 是 模型 训练 过 程 
首选 的 计算 架构 。 包 括 TensorFlow 在 内 的 绝 大 多 数 机 器 学 习 、 深 度 学 习 平 台 原 生地 提供 了 对 
CUDA 架构 及 NVIDIA GPU 的 支持 。 

当 把 CUDA 一 词 作 为 软件 依赖 项 提 及 时 ， 我 们 指 的 往往 是 CUDA 架构 中 的 软件 组 件 ， 即 
NVIDIA 驱动 程序 和 CUDA 工具 包 (CUDA Toolkit )。 用 户 可 以 在 NVIDIA 官方 网 站 下 载 集成 了 
NVIDIA 驱动 程序 、CUDA 开发 库 和 编译 器 的 安装 包 。 除 了 基本 的 CUDA 开发 库 和 编译 器 外 ， 
CUDA 工具 包 还 包括 cuBLAS、cuFFT、cuSOLVER、cuDNN 等 高 级 算法 库 ， 以 及 IDE、 调 试 器 、 
可 视 化 分 析 需 等 开发 工具 , 其 中 部 分 组 件 需要 独立 安装 。CUDA 工具 包 中 的 一 部 分 软件 组 件 是 开 
源 的 ， 例 如 基于 LLVM 的 CUDA 编译 器 。 其 余 非 开 源 的 组 件 大 多 以 免费 软件 的 形式 提供 给 开发 
者 和 最 终 用 户 。 

在 CUDA 架构 中 ,不 同 层次 的 软件 组 件 均 为 开发 者 提供 编程 接口 ， 以 适应 不 同类 型 软件 的 
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开发 需求 。NVIDIA 驱动 层 的 开发 接口 ( 即 cu 开头 的 函数 , 也 称 为 CUDA Driver API ) 较为 底层 ， 
暴露 了 GPU 的 若干 种 内 部 实现 抽象 。 这 种 接口 能 够 对 GPU 的 运行 时 行为 进行 细 粒 度 控 制 ， 有 助 
于 提升 程序 的 运行 时 效率 ， 但 缺点 在 于 开发 过 程 烦琐 。 一 般 的 GPU 应 用 程序 不 会 直接 使 用 这 一 
层 接 口 ， 然 而 TensorFlow 内 部 的 GPU 计算 引擎 StreamExecutor 为 了 追求 性 能 ， 选 择 使 用 这 
一 层 接口 实现 GPU 任务 调度 和 内 存 管理 等 功能 。CUDA 开发 库 的 API ( 即 cuda 开头 的 函数 ,也 
称 为 CUDA Runtime API ) 是 CUDA 架构 中 使 用 最 为 广泛 的 接口 ， 功 能 涵盖 GPU 设备 管理 、 内 
存 管 理 、 事 件 管 理 以 及 与 图 形 处 理 相 关 的 逻辑 。 不 过 ， 既 然 有 了 StreamExecutor，TensorFlow 就 
没有 大 面积 地 使 用 这 个 层次 的 接口 。cuBLAS 、cuDNN 等 高 级 算法 库 提 供 面 向 通用 计算 ( 如 线性 
代数 ) 或 领域 专用 计算 〈 如 神经 网 络 ) 需求 的 高 层次 接口 。 在 这 个 层次 ，GPU 设备 的 很 多 技术 
细节 已 被 屏蔽 , 开发 者 可 以 专注 于 算法 逻辑 的 设计 和 实现 。TensorFlow 面向 NVIDIA GPU 的 计算 
类 操作 大 多 基于 cuBLAS 和 cuDNN 接口 实现 。 


对 于 TensorFlow 而 言 ,CUDA 工具 包 是 不 受 Bazel 管理 的 外 部 依赖 项 .用 户 想 要 使 用 NVIDIA 
GPU 加 速 深度 学 习 时 ， 无 论 部 署 TensorFlow GPU 版 本 的 二 进 制 包 还 是 编译 通用 的 源 代码 包 ， 都 
需要 事先 安装 带 有 NVIDIA 驱动 程序 的 CUDA 工具 包 及 cuDNN 库 。 
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安装 了 TensorFlow， 并 对 其 外 部 依赖 项 有 了 基本 认识 之 后 ， 读 者 或 许 会 好 奇 TensorFlow 的 
内 部 组 件 结构 与 实现 原理 。 分 析 TensorFlow 的 源 代码 结构 是 理解 其 功能 构成 和 模块 组 织 的 良好 
途径 , 也 是 对 TensorFlow 进行 二 次 开发 的 必要 条 件 。 即 使 不 打算 从 事 二 次 开发 , 学 习 TensorFlow 
的 源 代码 结构 ， 了 解 其 基本 组 件 的 层级 关系 ,同样 有 助 于 建立 对 软件 架构 的 整体 印象 ， 从 而 为 编 
写 正确 而 高 效 的 算法 模型 莫 定 基础 。 此 外 ， 源 代码 包 中 提供 的 某 些 第 三 方 组 件 、 辅 助 工 具 、 示 例 
和 测试 代码 在 二 进 制 安装 包 中 并 不 存在 。 如 果 需 要 使 用 它们 ， 就 必须 从 源 代码 包 中 提取 。 有 兴 
深入 探索 这 些 “ 隐 藏 物件 ”的 读者 也 应 当 关 注 TensorFlow 的 源 代码 结构 。 


2.3.1 根 目录 


TensorFlow 源 代码 的 组 织 符合 Bazel 构建 工具 要 求 的 规范 。 其 根 目录 是 一 个 Bazel 项 目的 工 
作 空 间 ， 包 含 了 TensorFlow 的 所 有 源 代码 、Bazel 构建 规则 文件 ， 以 及 一 些 辅助 脚本 。 根 目录 下 
的 主要 子 目录 和 文件 介绍 如 下 ( 以 方 括号 表示 目录 名 ， 下 同 )。 


畏 [tensorflow]: TensorFlow 项 目 自身 的 源 代 码 。 

畏 [third_party]: 部 分 第 三 方 源 代码 以 及 针对 第 三 方 项 目的 Bazel 构建 规则 文件 。 

皮 [tools]: Bazel 构建 过 程 所 需 的 环境 配置 脚本 。 

较 [util] : Bazel 构建 过 程 所 需 的 辅助 构建 规则 文件 。 

国 configure: TensorFlow 源 代 码 包 配 置 脚本 ， 用 于 在 构建 源 代码 包 之 前 设置 软件 的 可 选 
特性 。 

国 WORKSPACE: Bazel 工作 空间 描述 文件 ， 包 含 项 目 元 信息 和 部 分 外 部 依赖 项 的 下 载 规则 。 
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除 此 之 外 ， 根 目录 下 还 包含 一 系列 纯 文本 的 说 明文 件 ， 用 于 向 用 户 介 绍 TensorFlow 项 目的 
基本 情况 。 

这 里 有 必要 特别 说 明 的 是 third_party 目录 。 尽 管 Bazel 会 通过 外 部 依赖 项 下 载 规则 ， 从 网 络 
上 获取 TensorFlow 所 需 的 绝 大 多 数 第 三 方 源 代码 , 然而 很 多 第 三 方 软件 自身 不 包含 Bazel 构建 规 
则 ，TensorFlow 需要 为 它们 准备 相应 的 规则 文件 。 这 些 规则 文件 不 但 解决 了 一 些 项 目 中 特有 的 技 
术 问 题 (例如 OpenCL GPU 相关 代码 所 需 的 专用 工具 链 )， 而 且 解 决 了 集成 某 些 项 目 涉及 的 非 技 
术 问 题 (例如 需要 排除 Eigen 库 中 的 部 分 GPL 授权 代码 )。 另 外 ，third_party 目录 还 包括 一 些 第 
三 方 项 目的 头 文件 , 例如 hdfs.h。 这 是 因为 TensorFlow 构建 时 只 需要 这 些 项 目的 头 文件 ,不 需要 
相应 的 源 文件 或 库 文件 ， 没 有 必要 下 载 该 依赖 项 的 整个 软件 包 。 


2.3.2 tensorflow 目 录 


TensorFlow 项 目的 源 代 码 主体 位 于 tensorflow 目录 。 该 目录 下 的 源 文件 几乎 实现 了 TensorFlow 
的 全 部 功能 ， 同 时 体现 了 TensorFlow 的 整体 模块 布局 。 它 的 主要 子 目 录 和 文件 介绍 如 下 。 


国 [c]: C 语言 应 用 层 API， 亦 作为 C、C++ 以 外 的 其 他 语言 应 用 层 API 的 实现 基础 。 

畏 [cc]: C++ 语言 应 用 层 API。 

上 [compiler]: XLA ( Accelerated Linear Algebra ) 编译 优化 组 件 的 源 代码 。 

区 [contrib]: 社区 托管 的 第 三 方 贡献 组 件 ( 主要 组 件 见 15.1 节 ) 。 

芭 [core] : TensorFlow 核心 运行 时 库 的 源 代码 ， 主 要 使 用 C++ 语言 实现 。 

图 [docs_src]: TensorFlow 软件 文档 ( 即 TensorFlow 官方 网 站 文档 ) 的 Markdown 源 代码 。 
辆 [examples]: TensorFlow 应 用 开发 示例 代码 。 

皮 [23doc]: 旧 的 文档 目录 , 已 弃 用 。 

皮 [go]: Go 语言 应 用 层 API。 

困 [java]: Java 语言 应 用 层 API。 

瞳 [python]: Python 语言 应 用 层 API。 

困 [stream_executor] : StreamExecutor 库 的 源 代码 ， 主 要 使 用 C++ 语言 实现 ， 用 于 管理 


CUDA GPU 上 的 计算 。 
图 [tensorboard] : TensorBoard 组 件 的 源 代码 ， 主 要 使 用 Python 语言 实现 ， 用 于 深度 学 习 过 
程 可 视 化 。 


皮 [tools]: TensorFlow 构建 时 和 运行 时 使 用 的 工具 程序 或 脚本 。 

困 [user_ops]: 用 于 存放 用 户 自行 开发 的 数据 流 图 操作 ， 包 含 一 组 示例 代码 。 

重 BUILD: Bazel 构建 规则 文件 ， 用 于 构建 TensorFlow 核心 运行 时 库 等 组 件 。 

国 tensorflow.bzl: Bazel 构建 过 程 所 需 的 辅助 脚本 ， 主 要 用 于 定义 TensorFlow 特有 的 构建 
规则 。 

国 workspace.bzl: Bazel 构建 过 程 所 需 的 辅助 脚本 ， 主 要 用 于 定义 外 部 依赖 项 的 下 载 规则 。 
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深度 学 习 算 法 模型 的 开发 者 可 以 对 Python 等 应 用 层 API 目录 进行 简单 浏览 ， 以 便 了 解 
TensorFlow 提供 的 抽象 和 接口 。TensorFlow 核心 层 的 二 次 开发 者 则 需要 聚焦 core 目录 , 从 而 理解 
其 内 部 设计 与 实现 原理 。docs _src 目录 提供 的 软件 文档 适用 于 所 有 用 户 ， 它 是 学 习 TensorFlow 基 
础 知识 的 第 一 手 资料 。 相 比 这 些 常用 的 目录 , tools 目录 有 时 会 被 用 户 忽略 。 该 目录 包含 不 少 实用 
工具 ,涉及 搭建 TensorFlow 持续 集成 和 基准 测试 环境 所 需 的 框架 代码 、 在 Docker 容器 或 Google 
云 环境 中 运行 TensorFlow 所 需 的 脚本 、 用 于 编辑 和 压缩 模型 文件 的 数据 流 图 转换 器 ， 以 及 自动 
升级 Python 应 用 代码 中 TensorFlow API 版 本 的 工具 等 。 


2.3.3 tensorflow/core 目 录 


TensorFlow 核心 运行 时 库 的 源 代码 位 于 tensorflow/core 目录 ， 其 主要 子 目 录 介 绍 如 下 。 


瞳 [common runtime]: 核心 库 的 公共 运行 时 源 代码 ， 实 现 了 TensorFlow 数据 流 图 计算 的 主 
要 逻辑 。 

瞳 [debug]: 用 于 核心 库 调试 的 组 件 。 

较 [distributed_runtime]: 核心 库 的 分 布 式 运行 时 源 人 代码， 实现 了 TensorFlow 分 布 式 运行 模 
式 的 主要 逻辑 。 

畏 [example]: 使 用 Protocol Buffers 创建 自 定 义 数据 结构 并 访问 序列 化 文件 的 示例 代码 。 

国 [framework]: 核心 库 的 框架 性 组 件 ， 包 含 TensorFlow 编程 框架 中 主要 抽象 的 CH+ 或 Protocol 
Buffers 定义 。 

瞳 [graph]: 数据 流 图 相关 抽象 和 工具 类 的 源 代码 。 

较 [grappler]: Grappler 优化 器 (一 种 基于 硬件 使 用 成 本 分 析 的 数据 流 图 优化 器 ) 的 源 代码 。 

困 [kernels]: 数据 流 图 操作 (Op ) 针对 各 类 计算 设备 实现 的 核 函 数 源 代码 。 

较 [lib]: 公共 基础 库 ， 涉 及 通用 数据 结构 、 常 用 算法 的 实现 ， 以 及 多 种 图 形 、 音 频 格式 的 
访问 接口 类 。 

皮 [ops]: 数据 流 图 操作 的 接口 定义 源 代码 。 

瞳 [platform]: 用 于 访问 特定 操作 系统 或 云 服务 接口 的 平台 相关 代码 。 

皮 [protobuf]: 数据 流 图 基本 抽象 以 外 的 序列 化 数据 结构 的 Protocol Buffers 源 代码 ， 例 如 
gRPC 接口 定义 。 

天 [public]: 对 应 用 层 可 见 的 公开 接口 的 头 文件 。 

瑚 [user_ops]: 用 于 存放 用 户 自行 开发 的 数据 流 图 操作 ， 包 含 一 组 示例 代码 。 

皮 [util] : 核心 库 内 部 使 用 的 多 种 实用 工具 类 或 函数 的 集合 ， 例 如 用 于 解析 命令 行 参数 和 访 
问 环境 变量 的 工具 。 

随 着 TensorFlow 版 本 的 演进 ， 核 心 运行 时 的 源 代码 组 织 也 有 可 能 发 生变 化 。 这 些 对 最 终 用 

户 不 可 见 的 变化 往往 不 会 体现 在 TensorFlow 的 版 本 发 布 说 明 (releasenote ) 中 ,， 有 兴趣 的 读者 可 
以 自行 分 析 目 录 结 构 和 文件 的 变化 。 
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读者 可 能 会 注意 到 ，tensorflow 和 tensorflow/core 目录 下 各 有 一 个 user_ops 目录 。 官 方 对 二 
者 给 出 了 不 同 的 定位 : 前 者 适用 于 用 户 以 二 进 制 包 形式 安装 TensorFlow 之 后 ， 通 过 Bazel 的 
tf_custom_op_1library 规则 构建 自 定 义 操作 的 情况 ; 后 者 适用 于 用 户 获 取 TensorFlow 源 代码 包 
之 后 ， 在 核心 运行 时 库 构 建 过 程 中 编译 自 定 义 操作 的 情况 。 


2.3.4 tensorflow/python 目 录 
TensorFlow Python API 的 源 代码 位 于 tensorflow/python 目录 , 其 主要 子 目 录 和 文件 介绍 如 下 。 


国 [client]: TensorFlow 主 - 从 模型 中 的 客户 端 组 件 ， 主 要 包括 会 话 抽 象 ， 用 于 维护 数据 流 图 
计算 的 生命 周期 。 

畏 [debug]: 用 于 Python 应 用 程序 调试 的 组 件 。 

国 [estimator]: 各 类 模型 评价 右 ( estimator ) 。 

皮 [feature_column]: 特征 列 ( feature column ) 组 件 。 

国 [framework]: Python API 的 框架 型 组 件 ， 包 含 TensorFlow 编程 框架 中 主要 抽象 的 Python 语 
言 定 义 。 

上 [grappler]: Grappler 优化 右 的 Python 语言 接口 。 

较 [kemel tests]: 数据 流 图 操作 的 单元 测试 代码 ， 有 助 于 用 户 学 习 各 种 操作 的 使 用 方法 。 

畏 [layers]: 预 置 的 神经 网 络 模型 层 (layer ) 组 件 。 

轧 [lib]: 公共 基础 库 ， 涉 及 专用 数据 结构 访问 和 文件 系统 IO 等 。 

末 [ops]: 数据 流 图 操作 的 Python 语言 接口 。 

较 [platform]: 用 于 访问 特定 操作 系统 或 云 服 务 接口 的 平台 相关 代码 。 

项 [saved_model] : 用 于 访问 TensorFlow 通用 模型 序列 化 格式 (savedMode1l ) 的 组 件 。 

国 [summary]: 用 于 生成 TensorFlow 事件 汇总 文件 (summary ) 的 组 件 ， 以 便 在 TensorBoard 
中 可 视 化 计算 过 程 。 

末 [tools]: 若干 可 独立 运行 的 Python 脚本 工具 ， 涉 及 访问 和 优化 模型 文件 等 功能 。 

畏 [training] : 与 模型 训练 过 程 相 关 的 组 件 ， 例 如 各 类 优化 器 ( optimizer ) 、 模 型 保存 器 ( saver ) 
等 。 

末 [user_ops]: 用 于 存放 用 户 自行 开发 的 数据 流 图 操作 的 Python 语言 接口 。 

轧 [util]: Python API 内 部 使 用 的 多 种 实用 工具 类 或 函数 的 集合 ， 例 如 用 于 处 理 Python 2/3 文 


本 兼容 性 的 函数 。 

圈 build_defs.bzl: Bazel 构建 过 程 所 需 的 辅助 脚本 ， 主 要 用 于 定义 Python API 特有 的 构建 
规则 。 

国 pywrap_tensorflow.py: 间接 封装 核心 库 通 过 C API 导出 的 函数 ， 以 便 在 Python API 内 部 
调用 核心 库 的 功能 。 


国 tensorflow.i: 对 接 CAPI 的 SWIG 接口 描述 文件 ， 用 于 在 软件 构建 时 为 Python API 和 后 成 核 
心 层 的 动态 链接 库 。 
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Python API 的 多 数 模块 内 部 通过 SWIG 工具 生成 的 胶合 层 代码 调用 CAPI, 进而 使 用 C++ 核 
心 库 的 功能 。 另 有 少量 API 的 内 部 实现 代码 出 于 提升 执行 效率 或 调用 核心 库 未 导出 接口 的 目的 ， 
直接 使 用 C++ 语言 开发 。Python API 在 TensorFlow 源 代码 中 属于 更 新 相对 频繁 的 部 分 ， 读 者 可 
以 通过 TensorFlow 的 版 本 发 布 说 明 追 踪 API 的 新 变化 。 


2.3.5 安装 目录 


使 用 官方 二 进 制 包 或 基于 源 代码 包 自 行 构建 出 来 的 二 进 制 包 安装 TensorFlow 之 时 , pip 命令 
会 将 TensorFlow 运行 时 所 需 的 Python 文件 、 动 态 链接 库 以 及 必要 的 依赖 项 复制 到 当前 Python 环 
境 的 site-packages 或 dist-packages 目录 中 。 其 中 ，TensorFlow 软件 本 身 的 运行 时 代码 会 被 部 署 到 
tensorflow 子 目 录 。 这 一 日 录 具 有 和 源 代码 包 的 tensorflow 目录 相似 的 组 织 结构 。 对 于 一 般 用 户 
而 言 ， 二 者 的 主要 不 同 点 在 于 以 下 几 点 。 


口 安装 目录 中 只 包含 每 个 模块 的 Python 语言 接口 文件 ， 不 再 包含 C++ 源 代码 。 所 有 使 用 
到 的 C++ 源 代码 已 被 编译 到 了 python 子 目 录 下 的 动态 链接 库 文件 中 (在 Linux 下 为 
_pywrap_tensorflow_internal.so )。 如 果 某 个 模块 未 提供 Python API， 那 么 相应 的 子 目 录 不 
会 在 安装 目录 中 出 现 。 

安装 目录 中 的 python/ops 子 目 录 比 同名 的 源 代码 子 目录 增加 了 一 系列 名 称 由 gen 开头 的 
Python 接口 文件 。 这 些 文件 是 TensorFlow 编译 脚本 自动 创建 的 ， 它 们 旨 在 为 C++ 核心 库 
的 一 部 分 数据 流 图 操作 提供 Python 编程 接口 。 

安装 目录 比 源 代码 目录 多 出 一 个 include 子 目录 。 这 个 目录 包含 了 TensorFlow 本 身 以 及 
Protocol Buffers 、Eigen 等 依赖 库 的 C++ 头 文件 ， 人 允许 用 户 通过 编程 方式 使 用 核心 库 的 功 
能 。 需 要 注意 的 是 ， 这 些 头 文件 提供 的 是 原 core 目录 下 的 TensorFlow 核心 层 API， 而 非 
原 cc 目录 下 的 C++ 应 用 层 API。 


口 


口 
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本 章 介 绍 了 TensorFlow 的 发 布 形式 和 多 种 安装 方法 。 我 们 看 到 , 原生 pip 方式 适用 于 简单 的 
Python 应 用 程序 开发 场景 , Anaconda 和 virtualenv 方式 适用 于 需要 维护 多 套 Python 虚拟 环境 的 场 
合 , 而 源 代 码 编译 安装 方式 适合 于 对 性 能 有 较 高 要 求 、 需 要 使 用 可 选 特 性 ,或 者 希望 对 TensorFlow 
做 二 次 开发 的 情况 。 读 者 可 以 根据 自身 的 需求 ， 选 择 合适 的 TensorFlow 版 本 和 安装 方法 ， 从 而 
构建 属于 自己 的 深度 学 习 开 发 环境 。 本 章 亦 介绍 了 TensorFlow 的 4 个 主要 外 部 依赖 项 一 一 Bazel、 
Protocol Buffers 、Eigen 和 CUDA 的 功能 与 用 法 ， 以 及 TensorFlow 源 代码 包 的 目录 结构 ， 这 为 读 
者 进一步 学 习 TensorFlow 应 用 层 API 和 核心 层 原理 商定 了 基础 、 理 顺 了 思路 。 


TensorFlow 基础 概念 


作为 深度 学 习 库 中 的 后 起 之 秀 ，TensorFlow 与 Theano 、Caffe 等 前 辈 软件 一 样 使 用 基于 声明 
式 编程 的 数据 流 图 作为 编程 范式 。 与 更 为 程序 员 所 熟知 的 结构 化 编程 、 面 向 对 象 编程 相 比 ， 这 种 
编程 范式 具有 些许 不 同 的 风格 。 无 论 初 人 算法 模型 开发 领域 的 新 人 , 还 是 具有 其 他 平台 使 用 经 验 
的 老手 ， 都 有 必要 理解 并 适应 TensorFlow 的 编程 范式 及 其 概念 体系 。 本 章 以 TensorFlow Python 
API 层 面 的 概念 为 基准 ， 首 先 对 比 声明 式 编程 与 命令 式 编程 各 自 的 特点 ,给 出 数据 流 图 在 处 理 机 
器 学 习 和 深度 学 习 问 题 上 的 优势 。 然 后 介绍 TensorFlow 数据 流 图 的 核心 抽象 ， 以 及 TensorFlow 
的 数据 载体 、 模 型 载体 、 运 行 环境 和 训练 工具 等 关键 模块 。 最 后 , 借助 一 元 线性 回归 模型 的 例子 ， 
以 最 佳 实践 的 形式 加 深 读 者 对 TensorFlow 编程 范式 的 理解 。 


3.1 编程 范式 : 数据 流 图 


作为 一 个 深度 学 习 库 ，TensorFlow 采用 了 更 适合 描述 深度 神经 网 络 模型 的 声明 式 编程 范式 ， 
并 以 数据 流 图 作为 核心 抽象 。 相 比 使 用 更 广泛 的 命令 式 编程 范式 , 基于 声明 式 编程 的 数据 流 图 的 
好 处 有 代码 可 读 性 强 、 支 持 引 用 透明 、 提 供 预 编译 优化 能 力 等 , 这 些 都 有 助 于 用 户 定 义 数学 函数 
或 算法 模型 。 本 节 主 要 介绍 声明 式 编程 与 命令 式 编程 各 自 的 特点 , 以 及 基于 声明 式 编 程 的 数据 流 
图 在 深度 学 习 应 用 上 的 独特 优势 。 在 本 节 最 后 ， 我 们 通过 实例 逐步 引出 TensorFlow 数据 流 图 的 
基本 概念 。 


3.1.1 声明 式 编程 与 命令 式 编程 


计算 机 科学 的 研究 者 将 编程 语言 或 函数 库 为 开发 人 员 提 供 的 程序 设计 基本 风格 和 典型 模式 
定义 为 编程 范式 。 声 明 式 编程 与 命令 式 编程 是 两 种 常见 的 编程 范式 ,它们 的 最 大 区 别 在 于 : 前 者 
强调 “做 什么 ” ， 后 者 强调 “怎么 做 "。 二 者 各 自 具有 显著 的 特点 。 
口 声明 式 编程 : 结构 化 、 抽 象 化 ， 用 户 不 必 纠 结 每 个 步 又 的 具体 实现 ， 而 是 通过 下 定义 的 
方式 描述 期 望 达到 的 状态 。 
口 命令 式 编程 : 过 程 化 、 具 体 化 ， 用 户 告诉 机 器 怎么 做 ， 机 器 按照 用 户 的 指示 一 步 步 执行 
命令 ， 并 转换 到 最 终 的 停止 状态 。 
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通常 ,我 们 认为 声明 式 编程 起 源 于 上 世纪 中 叶 的 人 工 智能 研究 , 它 包括 函数 式 编程 ( functional 
programming， 简 称 FP ) 和 逻辑 式 编程 (logicprogramming， 简 称 LP ) 等 子 范 式 。 函 数 式 编程 将 
计算 描述 为 对 数学 函数 的 求 值 ， 通 过 lambda 演算 精确 表达 计算 逻辑 ， 人 逻辑 式 编程 基于 一 系列 事 
实 和 规则 , 通过 逻辑 推导 得 出 结论 。 声 明 式 编程 比较 接近 人 的 思考 模式 : 程序 中 的 变量 代表 数学 
中 的 抽象 符号 ， 而 不 是 某 一 块 内 存 地 址 ; 用 户 将 计算 过 程 抽象 为 函数 表达 式 , 将 程序 的 输出 定义 
为 函数 值 。 声明 式 程序 按照 用 户 定义 的 函数 对 输入 数据 进行 表达 式 变换 和 计算 , 程序 最 终 的 输出 
仪 依赖 于 用 户 的 输入 数据 。 计 算 过 程 既 不 受 内 部 状态 影响 ,也 不 受 外 部 环境 影响 。 后面 介 绍 声明 
式 编程 时 会 以 函数 式 编程 为 主 。 

命令 式 编程 起 源 于 对 汇编 语言 和 机 器 指令 的 进一步 抽象 , 本 身 带 有 明显 的 硬件 结构 特征 。 它 
通过 修改 存储 器 的 值 、 产 生 副作用 的 方式 实现 计算 。 这 里 的 “副作用 ”是 指 一 个 函数 或 表达 式 除 
了 返回 值 之 外 ,还 对 外 部 环境 产生 附加 的 影响 , 例如 修改 了 函数 作用 域外 的 变量 或 输入 参数 。 命 
令 式 程序 具有 内 部 状态 , 计算 的 过 程 就 是 状态 转换 的 过 程 , 改变 状态 的 方式 就 是 对 存储 器 中 的 变 
量 进行 赋值 操作 。 

编程 是 一 种 输入 到 输出 的 转化 机 制 ， 这 两 种 编程 范式 提供 了 截然 不 同 的 解决 方案 。 
D 声明 式 编程 : 程序 是 一 个 数学 模型 ， 输 入 是 自 变量 ， 输 出 是 因 变 量 ， 用 户 设计 和 组 合 一 
系列 函数 ， 通 过 表达 式 变 换 实现 计算 。 
口 命令 式 编程 : 程序 是 一 个 有 穷 自 动机 ， 输 入 是 起 始 状态 ， 输 出 是 结束 状态 ， 用 户 设计 一 

系列 指令 ， 通 过 指令 的 执行 完成 状态 转换 。 

在 不 设 任何 前 提 条 件 时 , 探讨 两 种 编程 范式 的 优 劣 是 没有 意义 的 。 两 种 编程 范式 没有 高 下 之 

分 ， 只 有 左右 之 别 ， 它 们 的 特点 决定 了 各 自 擅长 的 领域 。 


口 声明 式 编程 : 擅长 基于 数理 逻辑 的 应 用 领域 ， 如 深度 学 习 、 人 工 智 能 、 符 号 计算 系 
D 命令 式 编程 : 擅长 复杂 业务 逻辑 的 应 用 领域 ， 如 交互 式 UI 程 序 、 操 作 系统 与 实用 工具 软 
件 等 。 


综 上 ， 我 们 将 声明 式 编程 和 命令 式 编程 的 对 比 总 结 成 表 3-1。 
表 3-1 声明 式 编程 与 命令 式 编程 的 多 角度 对 比 
编程 范式 。 核心 思想 实现 方法 ”程序 抽象 。” 计算 过 程 ”计算 单元 变量 意义 擅长 领域 。 典型 应 用 
声明 式 编程 ”做 什么 ”结构 化 、 抽 象 化 数学 模型 。 表达 式 变换 函数 ”抽象 符号 数理 逻辑 深度 学 习 
命令 式 编程 ”怎么 做 ”过程 化 、 具 体 化 有 穷 自 动机 状态 转换 。 指令 。 存储 单元 业务 逻辑 交互 式 UI 程序 


3.1.2 ”声明 式 编 程 在 深度 学 习 应 用 上 的 优势 


现 有 的 深度 学 习 系统 大 多 推荐 使 用 Python 等 解释 型 语言 开发 应 用 程序 ， 这 类 语言 普遍 对 声 
明 式 和 命令 式 两 种 编程 范式 提供 良好 的 支持 。 下 面 我 们 以 解释 型 语言 为 例 , 介绍 声明 式 编程 在 深 
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度 学 习 应 用 上 的 优势 。 虽然 C++ 等 编译 型 语言 的 命令 式 编程 范式 也 可 以 通过 编译 时 优化 达到 其 中 
部 分 效果 ， 但 它们 不 是 深度 学 习 应 用 开发 的 主流 语言 。 

对 于 深度 学 习 系 统 中 以 数据 流 图 为 主要 抽象 的 编程 方式 ， 声 明 式 编 程 的 优势 主要 包括 三 点 : 
代码 可 读 性 强 、 支 持 引 用 透明 和 提供 预 编译 优化 能 力 。 下 面 分 别 展开 说 明 。 

1. 代码 可 读 性 强 

通常 ,声明 式 编程 范式 写 出 来 的 代码 可 读 性 更 强 。 它 以 目标 而 非 过 程 为 导向 ， 更 接近 于 数学 
公式 或 人 类 的 思维 方式 。 用 户 想 要 编写 一 个 较为 复杂 的 算法 时 ,声明 式 代 码 一 目 了 然 , 但 命令 式 
代码 就 会 比较 烦琐 ,不 容易 直观 地 看 出 其 功能 。 下 面 我 们 以 使 用 Python 语言 计算 斐 波 那 契 
( Fibonacci ) 数 为 例 ， 说 明 两 种 编程 范式 的 差别 。 

辈 波 那 契 数 ,的 定义 为 : P=1，P=1， =P-1tF-2 (n>2 )。 使 用 命令 式 编程 范式 求解 斐 波 
那 契 数 的 典型 写法 如 下 : 


def fib(n): 
a, b=1,1 
for i in range(1, n): 
a, b=b,a+b 
return a 


读者 可 能 需要 逐 行 分 析 代 码 ， 才 能 够 将 其 同 斐 波 那 契 数 的 定义 关联 起 来 。 

现在 将 其 改写 为 声明 式 编程 范式 的 代码 ， 如 下 所 示 : 

fib = lambda x : 1 if x <= 2 else fib(x - 1) + fib(x - 2) 

我 们 可 以 使 用 lambda 表达 式 语法 在 一 行内 完成 函数 定义 。 这 段 代 码 不 涉及 算法 实现 细节 ， 
更 加 接近 自然 语言 的 表达 形式 ， 读 者 很 容易 理解 它 的 实际 功能 。 

当然 ,细心 的 读者 可 能 会 指出 ,这 段 声 明 式 代码 涉及 函数 递归 调用 ,性 能 较 差 。 对 于 Python 
解释 需 这 种 简单 的 运行 时 环境 , 递归 调用 的 性 能 问题 确实 存在 。 但 对 于 专门 为 函数 式 编程 设计 的 
开发 库 和 运行 时 环境 , 一 般 都 会 有 多 种 编译 优化 机 制 来 处 理 递归 展开 等 问题 , 这 可 以 自动 改善 性 
能 。TensorFlow 的 数据 流 图 运行 时 框架 也 不 例外 。TensorFlow 推荐 使 用 声明 式 编程 范式 创建 深度 
神经 网 络 模型 。 通 过 调用 丰富 的 内 置 抽 象 , 可 以 让 网 络 易于 设计 且 具 有 和 良好 的 层次 感 。 模 型 代码 
的 可 读 性 因此 得 到 增强 ， 从 而 缩短 了 理解 程序 的 时 间 。 

2. 支持 引用 透明 

函数 的 副作用 会 给 程序 设计 带 来 不 必要 的 麻烦 ， 有 可 能 引入 难以 查找 的 错误 , 并 降低 程序 的 
可 读 性 。 引 用 透明 (referential transparency ) 的 概念 与 函数 的 副作用 相关 ， 且 受 其 影响 。 如 果 一 
个 函数 的 语义 同 它 出 现在 程序 中 的 上 下 文 无 关 , 则 称 它 是 引用 透明 的 。 对 于 用 于 表达 算法 的 函数 ， 
引用 透明 的 一 个 推论 是 函数 的 调用 语句 可 以 被 它 的 返回 值 取代 ， 而 不 影响 程序 语义 。 

声明 式 编程 没有 内 部 状态 ,也 不 依赖 于 外 部 环境 ; 输出 结果 由 输入 数据 唯一 确定 ,与 代码 上 
下 文 无 关 。 用 户 创建 的 模型 就 是 一 幅 数 据 流 图 , 图 的 拓扑 结构 由 函数 的 组 合 关 系 定义 。 每 一 个 函 
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数 都 是 一 个 计算 单元 或 模块 ,对 应 着 图 中 的 一 个 节点 。 用 户 可 以 选择 执行 任意 的 模块 组 合 ( 子 图 )， 
以 得 到 不 同 模型 结构 的 输出 结果 。 同 时 ,用 户 也 可 以 反复 执行 同样 的 模型 结构 ,通过 输入 不 同 的 
数据 ,得 到 不 同 的 输出 结果 ,以 此 实现 神经 网 络 训练 等 迭代 计算 欣 辑 。 这 种 设计 能 够 简化 基于 梯 
度 下 降 法 的 深度 神经 网 络 模型 的 训练 步 又, 因为 训练 模型 就 是 在 相同 的 模型 结构 上 输入 不 同 的 批 
数据 ， 然 后 反复 计算 得 到 各 参数 梯度 并 不 断 更 新 模型 参数 。 

可 以 看 出 , 引用 透明 的 函数 更 符合 数学 语言 中 对 函数 的 定义 ， 而 不 再 像 计 算 机 语言 中 函数 概 
念 的 原始 定义 一 一 子 程序 。 因 此 ， 引 用 透明 的 特性 对 于 实现 数学 算法 是 非常 友好 的 。TensorFlow 
和 类 似 的 深度 学 习 库 内 置 了 大 量 的 数学 函数 ， 如 代数 计算 、 数 组 计算 、 归 约 计 算 、 卷 积 计算 、 神 
经 网 络 及 图 像 处 理 函 数 等 。 用 户 一 般 不 需要 从 头 开始 制造 轮子 ,而 是 通过 组 合 内 置 的 函数 , 创建 自 
己 的 算法 模型 。 声 明 式 编程 将 函数 视 为 与 其 他 数据 类 型 一 样 的 “一 等 公民 ”， 一 个 函数 本 身 可 以 以 
“ 闭 包 ”( closure ) 的 形式 成 为 另 一 个 函数 的 输入 ， 而 非 像 命令 式 编程 那样 以 函数 的 输入 、 输 出 参数 
的 方式 传输 状态 值 。 这 样 一 来 ， 程 序 在 正确 性 保证 、 运 行 时 优化 等 方面 比 命令 式 实现 更 具 优 势 。 

3. 提供 预 编 译 优化 能 力 

对 于 以 数据 流 图 为 核心 抽象 的 声明 式 编程 语言 或 函数 库 , 其 运行 时 环境 不 像 解释 型 命令 式 语 
言 那样 即刻 执行 代码 , 而 是 类 似 于 编译 型 命令 式 语言 的 语法 树 生 成 过 程 , 需要 事先 编译 得 到 完整 
的 数据 流 图 ， 然后 根据 用 户 选 择 的 子 图 , 输入 数据 进行 计算 。 因 此 ， 声 明 式 编程 能 够 实现 多 种 预 
编译 优化 ,包括 无 依赖 逻辑 并 行 化 、 无 效 逻 辑 移 除 、 公 共 逻 辑 提取 、 细 粒度 操作 融合 等 。 这 里 我 
们 以 无 依赖 逻辑 并 行 化 为 例 , 说 明 声 明 式 编程 如 何 提供 预 编译 优化 能 力 。 下 面 的 伪 代 码 定 义 了 模 
型 E=(A+B)*(C-D): 


Variable('A') 

Variable('B') 

Variable('C') 

Variable('D') 

multiply(add(A, B), subtract(C, D)) 
compile(E) 

f(A=3, B=2, C=4, D=2) #e = 16 


图 3-1 描绘 了 执行 预 编译 函数 f = compile(E) 后 ， 程 序 获取 到 的 计算 E 的 完整 数据 流 图 。 


图 3-1 E=(A+B)*(C-D) 的 数据 流 图 示例 


DhTMmoDO NmD 
中 IN IN | 
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如 果 一 个 函数 的 输入 值 是 男 一 个 函数 的 输出 值 ， 则 认为 前 者 依赖 于 后 者 , 对 应 在 数据 流 图 中 
就 是 一 条 后 者 指向 前 者 的 有 向 边 。 运 行 时 库 获 取 到 整 幅 数据 流 图 后 ， 能 够 清楚 地 理解 各 个 输入 、 
输出 之 间 的 依赖 关系 ， 故 而 容易 找到 可 以 并 行 计算 的 节点 。 本 例 中 ,A+B 和 c-D 之 间 没 有 任何 依 
赖 关 系 ， 因 此 图 上 没有 对 应 的 有 向 边 ， 它 们 可 以 并 行 执行 。 然 而 ，E 必须 等 待 AtB 和 C-D 计算 完 
成 后 , 才能 计算 。 通 过 预 编译 优化 技术 ，TensorFlow 和 类 似 的 深度 学 习 库 可 以 在 运行 时 有 效 提升 
算法 并 行 度 ， 在 多 核 CPU 与 GPU 场景 下 加 快 程序 的 运行 速度 。 


3.1.3 TensorFlow 数 据 流 图 的 基本 概念 


TensorFlow 将 数据 流 图 明确 地 定义 为 : 用 节点 和 有 向 边 描 述 数学 运算 的 有 向 无 环 图 。 如 图 
3-2 所 示 ， 数 据 流 图 中 的 节点 通常 代表 各 类 操作 ( operation )， 具 体 包 括 数学 运算 、 数 据 填充 、 结 
果 输 出 和 变量 读 写 等 操作 ， 每 个 节点 上 的 操作 都 需要 分 配 到 具体 的 物理 设备 (如 CPU、GPU ) 
上 执行 。 图 中 的 有 向 边 描 述 了 节点 间 的 输入 、 输 出 关系 ， 边 上 流动 (flow ) 着 代表 高 维 数据 的 张 
量 (tensor )， 这 就 是 TensorFlow 名 称 的 由 来 。 


SGD Trainer 
RE 
1 1 1 | 


(vate wu] [ Update b,] (onaatew,,] [was bo] 
了 了 


| 


ES | 
， learning_rate = [0.01] 


shape = [784,1] 


图 3-2 ”TensorFlow 的 数据 流 图 示例 ( 男 见 彩 插 ) 
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基于 梯度 下 降 法 优化 求解 的 机 器 学 习 问 题 , 通常 都 可 以 分 为 前 向 图 求 值 与 后 向 图 求 梯 度 两 个 
计算 阶段 。 其 中 ,前 向 图 由 用 户 编写 代码 完成 , 主要 过 程 包括 定义 模型 的 目标 函数 ( object function ) 
和 损失 函数 (loss function ), 输入、 输出 数据 的 形状 ( shape )、 类 型 ( dtype ) 等 ;后 向 图 由 TensorFlow 
的 优化 器 ( optimizer ) 自动 生成 ， 主 要 功能 是 计算 模型 参数 的 梯度 值 ， 并 使 用 梯度 值 更 新 对 应 的 
模型 参数 。 


下 面 分 别 介 绍 数据 流 图 中 的 主要 概念 ， 以 及 数据 流 图 和 TensorFlow 会 话 的 执行 原理 。 


1. 节点 

前 向 图 中 的 节点 统一 称 为 操作 ， 它 们 根据 功能 可 以 分 为 以 下 3 类 。 

口 数学 函数 或 表达 式 : 比如 图 3-2 中 的 MatMul、BiasAdd 和 Softmax ， 绝 大 多 数 节 点 都 属于 
此 类 。 


口 存储 模型 参数 的 变量 (variable): 比如 图 3-2 中 ReLu Layer 中 的 所 | 和 4b。 

口 占 位 符 《placeholder):， 比如 图 3-2 中 的 Input 和 Class Labels， 它 们 通常 用 来 描述 输入 、 
输出 数据 的 类 型 和 形状 等 ,便于 用 户 利用 数据 的 抽象 结构 直接 定义 模型 。 在 数据 流 图 执 
行 时 ， 占 位 符 需 要 填充 对 应 的 数据 。 

后 向 图 中 的 节点 同样 分 为 以 下 三 类 。 

口 梯度 值 : 即 经 过 前 向 图 计算 出 的 模型 参数 的 梯度 ， 比 如 图 3-2 中 的 Gradients。 

口 更 新 模型 参数 的 操作 : 比如 图 3-2 中 的 Update 丈 和 Update 5， 它 们 定义 了 如 何 将 梯度 值 

更 新 到 对 应 的 模型 参数 。 

口 更 新 后 的 模型 参数 : 比如 图 3-2 中 SGD Trainer 内 的 斑 和 5， 与 前 向 图 中 的 模型 参数 一 一 
对 应 ， 但 参数 值得 到 了 更 新 ， 用 于 模型 的 下 一 轮训 练 。 

2. 有 向 边 
数据 流 图 中 的 有 向 边 用 于 定义 操作 之 间 的 关系 ， 它 们 分 为 两 类 : 一 类 用 来 传输 数据 ， 绝 大 部 

分 流动 着 张 量 的 边 都 是 此 类 ， 在 图 3-2 中 用 实 线 表 示 ， 简 称 数 据 边 。 另 一 类 用 来 定义 控制 依赖 

( control dependency )， 通 过 设 定 节点 的 前 置 依赖 决定 相关 节点 的 执行 顺序 ， 在 图 3-2 中 用 虚线 表 

示 ， 简 称 控制 边 。 

所 有 的 节点 都 通过 数据 边 和 控制 边 连 接 。 入 度 为 0 的 节点 没有 前 置 依赖 ， 可 以 立即 执行 ， 入 

度 非 0 的 节点 需要 等 待 所 有 依赖 节点 执行 结束 后 ， 方 可 执行 。 

3. 执行 原理 
声明 式 编程 的 特点 决定 了 在 深度 神经 网 络 模 型 的 数据 流 图 上 , 各 个 节点 的 执行 顺序 并 不 完全 

依赖 于 代码 中 定义 的 顺序 , 而 是 与 节点 之 间 的 逻辑 关系 以 及 运行 时 库 的 实现 机 制 相 关 。 在 使 用 数 

据 边 和 控制 边 描述 节点 依赖 关系 的 基础 上 , TensorFlow 设计 了 一 套 精 妙 而 有 序 的 执行 机 制 来 确保 

数据 流 图 正确 执行 。 这 里 我 们 抛 开 运 行 时 库 内 部 的 复杂 实现 , 仅 从 高 层 宏 观 视角 审视 数据 流 图 的 
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执行 原理 。 简 单 来 说 ,数据 流 图 上 节点 的 执行 顺序 的 实现 参考 了 拓扑 排序 的 设计 思想 。 当 用 户 使 
用 TensorFlow 执行 指定 数据 流 图 时 ， 其 过 程 可 以 简 述 为 以 下 4 个 步 又。 

(1) 以 节点 名 称 作为 关键 字 、 入 度 作 为 值 ， 创 建 一 张 散 列表 ， 并 将 此 数据 流 图 上 的 所 有 节点 放 
入 散 列 表 中 。 

(2) 为 此 数据 流 图 创建 一 个 可 执行 节点 队列 ， 将 散 列 表 中 入 度 为 0 的 节点 加 入 到 该 队列 ， 并 
从 散 列 表 中 删除 这 些 节 点 。 

G) 依次 执行 该 队列 中 的 每 一 个 节点 , 执行 成 功 后 将 此 节点 输出 指向 的 节点 的 入 度 值 减 1, 更 
新 散 列 表 中 对 应 节点 的 入 度 值 。 

(4) 重复 步骤 (2) 和 步骤 (3)， 直 到 可 执行 节点 队列 变 为 空 。 

下 面 以 图 3-2 所 示 的 数据 流 图 执行 过 程 为 例 说 明 。 最 初 可 执行 节点 队列 中 只 有 Input 节点 。 
执行 Input 后 ，Reshape 和 Class Labels 节点 的 入 度 减 为 0， 加 入 可 执行 节点 队列 。 同 时 ， 这 两 个 
节点 将 从 散 列 表 中 移 除 。 接 下 来 ， 程 序 将 执行 Reshape 和 Class Labels 节点 。 以 此 类 推 ， 直 到 可 
执行 节点 队列 变 为 空 。 

TensorFlow 数据 流 图 本 身 是 一 个 有 向 无 环 图 ， 程 序 结果 的 正确 性 依赖 于 图 上 节点 的 执行 顺 
序 。 通 过 这 套数 据 流 图 执行 机 制 ，TensorFlow 能 够 支持 复杂 、 多 样 化 的 算法 模型 。 


3.2 ”数据 载体 : 张 量 


张 量 广泛 应 用 于 物理 学 、 数 学 和 工程 学 中 。 在 不 同 的 应 用 领域 ， 张 量具 有 不 同 的 学 术 定 义 。 
这 里 援引 维基 百科 的 解释 : 张 量 是 用 来 表示 一 些 矢量 、 标 量 和 其 他 张 量 之 间 线 性 关系 的 多 线性 函 
数 ， 这 些 线性 关系 的 典型 例子 有 内 积 、 外 积 、 线 性 映射 以 及 笛 卡 儿 积 等 。 张 量 的 抽象 理论 是 线性 
代数 的 分 支 : 多 重 线性 代数 。 

在 TensorFlow 中 ， 张 量 是 数据 流 图 上 的 数据 载体 。 为 了 更 方便 地 定义 数学 表达 式 、 更 准确 
地 描述 数学 模型 ，TensorFlow 使 用 张 量 统一 表示 所 有 数据 。 在 实际 计算 时 ， 即 表达 式 的 转换 过 程 
中 ， 模 型 所 对 应 的 表达 式 中 的 数据 由 张 量 来 承载 。TensorFlow 提供 Tensor 和 SparseTensor 两 
种 张 量 抽象 ， 分 别 表示 稠密 数据 和 稀 琉 数据 。 后 者 旨 在 减少 高 维 稀 玻 数据 的 内 存 占用 。 


3.2.1 张 量 : Tensor 


在 数学 中 ， 张 量 是 一 种 几何 实体 ， 广义 上 可 表示 任意 形式 的 数据 。 表 3-2 列 出 了 张 量 与 常见 
的 数据 实体 的 关系 ,图 3-3 给 出 了 对 应 的 数据 实体 实例 。 用 于 承载 数据 的 张 量 可 以 理解 为 0 阶 标 
量 、1 阶 向 量 和 2 阶 矩 阵 在 高 维 空间 上 的 推广 ,， 张 量 的 阶 (rank ) 表示 它 所 描述 数据 的 最 大 维度 。 
在 NumPy 等 数学 计算 库 或 TensorFlow 等 深度 学 习 库 中 ,我们 通常 使 用 多 维 数组 的 形式 描述 一 个 
张 量 ， 数 组 的 维 数 表 示 对 应 张 量 的 阶 数 。 
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表 3-2 ” 张 量 与 常见 数据 实体 的 关系 


阶 数据 实体 Python 样 例 

0 标量 scalar = 1 

1 向 量 vector = [1, 2, 3] 

2 和 矩阵 ( 数据 表 ) matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] 

3 数据 立方 tensor = [[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[16, 11, 12], 


[13, 14, 15], [16, 17, 18]]] 


n n 阶 张 量 


一 


四 四 四 
[7 
o 阶 。  ] 阶 2 阶 3 阶 


图 3-3 表 3-1 中 Python 样 例 对 应 的 数据 实体 示例 


张 量 的 阶 数 决定 了 其 描述 的 数据 所 在 高 维 空间 的 维 数 。 在 此 基础 上 , 定义 每 一 阶 的 长 度 可 以 
唯一 确定 一 个 张 量 的 形状 。TensorFlow 中 的 张 量 形状 用 列表 表示 , 列表 中 的 每 个 值 依次 表示 张 量 
各 阶 的 长 度 。 例 如 ,图 3-3 中 3 阶 张 量 各 阶 的 长 度 分 别 为 Du=2、Di=3 和 D=3， 因 此 它 的 形 
状 为 2，3，3]。 执 行 数据 流 图 上 的 操作 时 ， 需 要 保证 同一 操作 下 的 张 量 形状 符合 计算 规则 。 当 用 
户 没 有 显 式 设置 输出 张 量 的 形状 时 ，TensorFlow 内 部 会 根据 操作 的 输入 张 量 进行 形状 推理 ( shape 
inference )， 以 确保 操作 能 够 正确 执行 。 

TensorFlow 的 张 量 具有 极 强 的 数据 表达 能 力 , 这 既 体现 在 它 对 高 维 数据 的 抽象 描述 ， 又 体现 
在 它 对 多 样 化 数据 类 型 的 支持 。 表 3-3 罗列 了 TensorFlow 张 量 支持 的 数据 类 型 。 除了 支持 常用 的 
浮 点 数 、 整 数 、 字 符 串 、 布 尔 型 等 类 型 外 ， 也 支持 复数 和 量化 整数 类 型 。 用 户 可 以 在 tensorflow/ 
python/framework/dtypes.py 文件 中 找到 相关 的 代码 定义 和 说 明 。 


表 3-3 TensorFlow 张 量 支持 的 数据 类 型 


Dtype 对 象 TensorFlow 数据 类 型 说 明 
DT_HALF tf.float16 半 精 度 浮 点 数 
DT_FLOAT tf.float32 单 精度 浮 点 数 
DT_DOUBLE tf.float64 双 精 度 浮 点 数 
DT_BFLOAT16 tf.bfloat16 裁 短 浮 点 数 
DT_INT8 tf.int8 8 位 有 符号 整数 
DT_INT16 tf.int16 16 位 有 符号 整数 


DT_INT32 tf.int32 32 位 有 符号 整数 
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Dtype 对 象 TensorFlow 数据 类 型 说 明 
DT_INT64 tf.int64 64 位 有 符号 整数 
DT_UINT8 tf.uint8 8 位 无 符号 整数 
DT_UINT16 tf.uint16 16 位 无 符号 整数 
DT_STRING tf.string 字符 串 
DT_BOOL tf.bool 布尔 值 
DT_COMPLEX64 tf.complex64 单 精度 复数 ( 实 部 和 虚 部 均 为 单 精度 浮 点 数 ) 
DT_COMPLEX128 tf.complex128 双 精 度 复数 ( 实 部 和 虚 部 均 为 双 精 度 浮 点 数 ) 
DT_QINT8 tf.qint8 量化 的 8 位 有 符号 整数 
DT_QINT16 tf.qint16 量化 的 16 位 有 符号 整数 
DT_QINT32 tf.qint32 量化 的 32 位 有 符号 整数 
DT_QUINTS tf.quint8 量化 的 8 位 无 符号 整数 
DT_QUINT16 tf.quint16 量化 的 16 位 无 符号 整数 
TensorFlow 的 张 量 在 逻辑 定义 上 是 数据 载体 , 但 在 物理 实现 时 是 一 个 句柄 , 它 存 储 张 量 的 元 


言 息 以 及 指向 张 量 数据 的 内 存 缓冲 区 指针 。 这 样 设计 是 为 了 实现 内 存 复 用 。 在 某 些 前 置 操 作 ( 生 
产 者 ) 的 输出 值 被 输入 到 多 个 后 置 操作 ( 消费 者 ) 的 情况 下 ,无须 重复 存储 输出 值 。 当 一 个 张 量 
不 再 被 任何 操作 依赖 后 ，TensorFlow 会 释放 存储 该 张 量 的 内 存 缓冲 区 。 例如， 图 3-1 中 的 A*B 和 


C-D 的 计算 结 曙 


被 乘法 操作 处 理 之 后 ,存储 它们 的 内 存 将 会 被 释放 。TensorFlow 内 部 通过 引用 计 


数 方式 判断 是 否 应 该 释放 张 量 数据 的 内 存 缓冲 区 ， 这 一 机 制 类 似 于 编程 语言 中 的 垃圾 回收 机 币 


1. 创建 


Re 


O 


在 TensorFlow Python API 中 ,稠密 张 量 抽象 是 Tensor 类 , 它 定义 在 tensorflow/python/framework/ 


ops.py 文 件 里 。 表 3-4 列 出 了 Tensor 构造 方法 的 完整 输入 参数 ， 


这 些 参数 同时 也 是 张 量 的 属性 。 


表 3-4 TensorFlow 张 量 的 属性 


属性 名 称 功能 说 明 
dtype 张 量 传输 数据 的 类 型 
name 张 量 在 数据 流 图 中 的 名 称 
graph 张 量 所 属 的 数据 流 图 
op 生成 该 张 量 的 前 置 操 作 
shape 张 量 传输 数据 的 形状 
value_index 张 量 在 该 前 置 操作 所 有 输出 值 中 的 索引 


不 过 ， 在 一 般 情 况 下 ， 用 户 不 需要 使 用 Tensor 类 的 构造 方法 直接 创建 张 量 ， 而 是 通过 操作 


间接 创建 张 量 。 典 型 的 张 量 创建 操作 包括 常量 定义 操作 和 代数 计算 操作 。 下面 的 代码 给 出 了 使 用 
constant 和 add 操作 创建 张 量 a、b 和 c 的 示例 : 
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import tensorflow as tf 
a = tf.constant(1.6) 
b = tf.constant(2.6) 
c= tf.add(a, b) 
print([a, b, c]) 


输出 : 
[<tf.Tensor “Const:6' shape=() dtype=float32>, 
<tf.Tensor “Const_1:6” shape=() dtype=float32>, 
<tf.Tensor “Add:6' shape=() dtype=float32>] 
2. 求解 
数据 流 图 中 的 操作 输出 值 由 张 量 承载 。 如 果 用 户 想 要 求解 特定 张 量 的 值 ， 则 需要 创建 会 话 ， 
然后 执行 张 量 的 eval 方法 或 会 话 的 run 方法 。 下 面 的 代码 给 出 了 获取 张 量 a、b、c 值 的 示例 : 


with tf.Session() as sess: 
print(c.eval()) 
print(sess.run([a, b, c])) 


输出 : 
3.6 
[1.6，2.6，3.6] 
3. 成 员 方 法 
TensorFlow 的 Tensor 抽象 除了 支持 多 样 化 的 数据 类 型 外 ， 也 提供 一 些 成 员 方 法 来 动态 改变 
张 量 形 状 ， 以 及 查看 张 量 的 后 置 操 作 。 表 3-5 给 出 了 TensorFlow 张 量 的 公共 成 员 方 法 。 
表 3-5 TensorFlow 张 量 的 公共 成 员 方 法 


方法 名 称 功能 说 明 

eval 取出 张 量 值 
get_shape 获取 张 量 的 形状 
set_shape 修改 张 量 的 形状 
consumers 获取 张 量 的 后 置 操 作 


4. 操作 
TensorFlow 为 张 量 提供 了 大 量 操 作 ， 以 便 构建 数据 流 图 ， 实 现 算法 模型 。 典 型 的 操作 如 表 
3-6 所 示 。 下 一 节 将 详细 介绍 其 中 的 重要 操作 。 
表 3-6 TensorFlow 针对 张 量 提供 的 典型 操作 


操作 类 型 典型 操作 
一 元 代数 操作 abs、neg 和 invert 


二 元 代数 操作 add、multiply 和 sub 
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( 续 ) 
操作 类 型 典型 操作 
多 状 操作 chip、reshape、slice 和 shuffle 
日 约 操作 reduce_mean 和 reduce_sum 
神经 网 络 操作 conv、pool、softmax 和 relu 
条 件 操作 cond 


5. 典型 用 例 


下 面 通 过 一 组 典型 的 用 例 展示 张 量 的 创建 、 求 解 ， 以 及 其 他 成 员 方法 的 使 用 。 示 例 代 码 和 运 
行 输出 如 下 所 示 : 


import tensorflow as tf 


a = tf.constant([1，1]) 
b = tf.constant([2，2]) 
c = tf.add(a，b) 


with tf.Session() as sess: 
print("a[8]=%s, a[1]=%s" % (a[8].eval(), a[1].eval())) 
print("c.name=%s" % c.name) 
print("c.value=%s" % c.eval()) 
print("c.shape=%s" % c.shape) 
print("a.consumers=%s" % a.consumers()) 
print("b.consumers=%s" % b.consumers()) 
print("[c.op]:\n%s" % c.op) 

输出 

a[8]=1, a[1]=1 # 可 以 通过 下 标 获取 张 量 的 特定 部 分 
c.name=Add:6 
.Value=[3 3] 

.Shape=(2,) 

张 量 a 和 上 b 的 后 置 操作 均 为 add 
.consumers=[<tf.Operation 'Add' type=Add>] 
.consumers=[<tf.Operation 'Add' type=Add>] 
add 操作 ( 即 用 于 生成 张 量 Cc 的 操作 ) 的 属性 如 下 
[c.op]: 
name: "Add" 
op: "Add" 
input: "Const" # 一 个 输入 值 为 生成 张 量 a 的 const 操作 
input: "Const_1"” # 另 一 个 输入 值 为 生成 张 量 b 的 const_1 操作 
attr { 

key: "T" 
value { 

type: DT_INT32 
} 


So#nn 


半 


3.2.2 ” 稀 琉 张 量 : SparseTensor 


TensorFlow 提供 了 专门 用 于 处 理 高 维 稀 朴 数据 的 SparseTensor 类 。 该 类 以 键 值 对 的 形式 表 
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示 高 维 稀 跑 数 据 ， 它 包含 indices、values 和 dense_shape 这 3 个 属性 。 其 中 ，indices 是 一 
个 形状 为 [N，ndims] 的 Tensor 实例 ，N 表示 非 零 元 素 的 个 数 ，ndims 表示 张 量 的 阶 数 。 例 如 ， 
当 indices=[[6, 2], [1, 3]] (N=2, ndims=2 ) 时 ， 表 示 2 阶 稀 玻 张 量 中 索引 为 [0, 2] 和 [1, 3] 的 
元 素 非 零 。values 是 一 个 形状 为 [N] 的 Tensor 对 象 ， 用 于 保存 indices 中 指定 的 非 零 元 素 。 

dense_shape 是 一 个 形状 为 [ndims] 的 Tensor 实例 ， 表 示 该 稀 玻 张 量 对 应 稠密 张 量 的 形状 。 


1. 创建 


在 TensorFlow 中 创建 稀 玻 张 量 时 , 一 般 可 以 直接 使 用 sparseTensor 类 的 构造 方法 。 示例 代 
但 如 下 : 


import tensorflow as tf 


sp = tf.SparseTensor(indices=[[6，2]，[1，3]]，values=[1，2]，dense_shape=[3，4]) 


稀 中 张 量 sp 的 键 值 对 形式 为 : 
[6，2]: 1 
[3 这 


等 价 于 形状 为 [3，4] 的 2 阶 稠密 张 量 : 
[[8, 6, 1, 8] 
[e, 8, 80, 2] 
[e, 0, 0, 8]] 


with tf.Session() as sess: 
# 可 以 看 出 ，SparseTensor 实例 本 身 由 3 个 Tensor 实例 组 成 
print(sp.eval()) 


输出 : 
SparseTensorValue(indices=array([[8, 2], [1, 3]]), 
values=array([1, 2], dtype=int32), 
dense_shape=array([3, 4])) 
2. 操作 
TensorFlow 为 稀 玖 张 量 提供 了 一 些 专门 的 操作 , 这 样 用 户 能 够 像 处 理 稠密 张 量 那 样 处 理 稀 蚊 
张 量 。 典 型 的 操作 如 表 3-7 所 示 。 


表 3-7 TensorFlow 针对 稀疏 张 量 提 供 的 典型 操作 


操作 类 型 典型 操作 

转换 操作 sparse to dense、 sparse to indicator 和 sparse_merge 

代数 操作 sparse_add、sparse_softmax、sparse_tensor_dense_matmul 和 sparse_maximum 
几何 操作 sparse_concat、sparse_reorder 、sparse_split 和 sparse_transpose 

归 约 操作 sparse_reduce_sum 和 sparse_reduce_sum_sparse 
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3. 典型 用 例 
下 面 我 们 通过 一 组 典型 的 用 例 展示 稀 玻 张 量 的 创建 ,以 及 归 约 操作 的 调用 方法 。 示 例 代 码 和 
运行 输出 如 下 所 示 : 


import tensorflow as tf 


x = tf.SparseTensor(indices=[[8,86], [8,2], [1,1]], values=[1,1,1], dense_shape=[2,3]) 
# 稀 跑 张 量 对 应 的 稠密 张 量 为 [[1, 68,1]，[8,，1, 8]] 


reduce x = [tf.sparse_reduce_sum(x)， # => 3 
tf.sparse_reduce_sum(x, axis=1), # => [2, 1] 
tf.sparse_reduce_ sum(x, axis=1, keep_dims=True), # => [[2], [1]] 
tf.sparse_reduce_sum(x, axis=[6, 1])] # => 3 


with tf.Session() as sess: 
print(sess.run(reduce_x)) 


输出 : 

[3， 

array([2, 1], dtype=int32), 
array([[2], [1]], dtype=int32), 
3] 


3.3 ”模型 载体 : 操作 

TensorFlow 的 算法 模型 由 数据 流 图 表示 , 数据 流 图 由 节点 和 有 向 边 组 成 , 每 个 节点 均 对 应 一 
个 具体 的 操作 。 因 此 ,操作 是 模型 功能 的 实际 载体 。 数 据 流 图 中 的 节点 按照 功能 不 同 可 以 分 为 以 
下 3 种 。 
口 计算 节点 : 对 应 的 是 无 状态 的 计算 或 控制 操作 ， 主 要 负责 算法 逻辑 表达 或 流程 控制 。 
口 存储 节点 : 对 应 的 是 有 状态 的 变量 操作 ， 通 常用 来 存储 模型 参数 。 
D 数据 节点 : 对 应 的 是 特殊 的 占 位 符 操作 ， 用 于 描述 待 输 入 数据 的 属性 。 
本 节 中 ,我 们 将 依次 介绍 TensorFlow 中 3 种 节点 及 其 对 应 操作 的 定义 、 功 能 和 典型 使 用 方法 。 


3.3.1 计算 节点 : Operation 


计算 节点 对 应 的 计算 操作 抽象 是 operation 类 。 计 算 节 点 的 入 边 代 表 输 入 张 量 ， 出 边 代 表 
输出 张 量 ,每 个 节点 对 输入 张 量 进行 特定 的 数学 运算 或 流程 控制 ,然后 将 结果 输出 到 后 置 的 节点 。 
Operation 类 定义 在 tensorflow/python/framework/ops.py 文件 中 ， 它 提供 获取 操作 的 名 称 、 类 型 、 
输入 张 量 、 输 出 张 量 等 基本 属性 的 方法 。 表 3-8 列 出 了 计算 操作 的 主要 属性 。 

表 3-8 计算 操作 的 主要 属性 
属性 名 称 功能 说 明 
name 操作 在 数据 流 图 中 的 名 称 
type 操作 的 类 型 名 称 
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属性 名 称 功能 说 明 
inputs 输入 张 量 列表 


control inputs 
outputs 

device 

graph 


traceback 


输入 控制 依赖 列表 


输出 张 量 列表 


操作 执行 时 使 用 的 设备 


操作 所 属 的 数据 流 图 


操作 实例 化 时 的 调用 栈 


用 户 在 编写 数据 流 图 的 算法 逻辑 时 ， 通 常 不 需要 显 式 构造 operation 实例 ， 只 需要 使 用 
TensorFlow 提供 的 各 种 操作 函数 来 定义 计算 节点 。 这 些 函 数 执行 后 ，TensorFlow 内 部 会 自动 构造 
相应 的 operation 实例 。 这 些 操 作 消 数 一 般 定义 在 tensorflow/python/ops 目录 下 的 各 个 文件 。 表 


3-9 分 类 整理 了 TensorFlow Python API 提供 的 


操作 。 


表 3-9 TensorFlow Python API 提供 的 典型 操作 


操作 类 型 典型 操作 
基础 算术 add、multiply、mod、sqrt、sin、trace、fft 和 argmin 
数组 运算 size、 rank、 split、 reverse、cast、one_hot 和 quantize 
梯度 裁剪 clip_by_value、clip_by_norm 和 clip_by_global_norm 
逻辑 控制 和 调试 identity、 logical and、equal、less、is _ finite 和 is_nan 
数据 流 控 制 enqueue、dequeue、size、take_grad 和 apply_grad 
初始 化 操作 zeros_initializer、random normal initializer 和 orthogonal initializer 
神经 网 络 运算 convolution、 pool、 bias add、softmax、dropout 和 erosion2d 
随机 运算 random_normal、random_shuffle、multinomial 和 random_gamma 
字符 串 运算 string to hash bucket、 reduce join、substr 和 encode_base64 
图 像 处 理 运算 encode png、 resize images、 rot90、hsv_to_rgb 和 adjust_gamma 


用 户 可 以 在 Python 解释 器 中 查看 操作 函数 所 属 的 命名 空间 ,进而 推断 其 所 在 的 Python 文件 。 


方法 如 下 : 


>>> import tensorflow as tf 


>>> help(tf.reshape) 


Help on function reshape in module tensorflow.python.ops.gen_array_ops: 


>>> help(tf.matmul) 


Help on function matmul in module tensorflow.python.ops.math_ops: 


>>> help(tf.add) 


Help on function add in module tensorflow.python.ops.gen math_ops: 


命名 空间 带 有 gen_ 前 级 


C++ 核心 层 实现 , 并 在 TensorFlow 编译 时 生成 对 应 的 
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gen_*.py 文件 。 因 此 , 在 TensorFlow 项 目 源 代码 目录 中 ， 无 法 找到 这 些 Python 文件 。 感 兴趣 的 
读者 可 以 在 TensorFlow 安装 之 后 的 Python site-packages ( 或 dist-packages ) 软件 包 目 录 下 找到 对 


应 的 文件 。 


下 面 我 们 以 c=a+b 中 的 add 操作 为 例 ， 说 明 计算 操作 的 执行 过 程 和 实现 原理 。 示 例 代码 如 下 : 


import tensorflow as tf 
# 创建 名 字 作 用 域 AddExample 


with tf.name_scope("AddExample"): 


# 创建 变量 a 和 上 b 

a = tf.Variable(1.06, name=" 
b = tf.Variable(2.06, name=" 
# 使 用 add 操作 函数 创建 张 量 < 
c = tf.add(a，b，name= 'add ' 
print(c) 


输出 : 


So 


Tensor("add:6"，shape=()，dtype=float32) # 张 量 c 的 属性 


我 们 能 够 成 功 打印 输出 张 量 c 的 


属性 ,但 是 无 法 直接 观察 到 内 部 自动 构造 的 add 操 作 的 属性 。 


事实 上 ， 这 个 操作 的 一 部 分 属性 在 代码 中 已 经 显 式 体现 出 来 了 : 操作 名 称 为 add， 操 作 类 型 也 为 


add; 输入 张 量 是 a 和 b， 它 们 的 值 分 别 为 1.0 和 2.0; 输出 张 量 是 c; 没有 控 


出 依赖 输入 。 


为 了 观 


察 代 码 中 未 体现 的 细节 ，TensorFlow 为 用 户 提供 了 查看 数据 流 图 的 可 视 化 工具 一 一 TensorBoard。 
我 们 使 用 TensorBoard 将 c=a+b 对 应 的 数据 流 图 泻 染 了 出 来 ， 如 图 3-4 所 示 。 第 6 章 将 详细 介绍 
TensorBoard 的 使 用 方法 ， 现 在 让 我 们 将 目光 暂时 聚焦 到 TensorFlow 计算 操作 。 


AddExample 


AddExample/add 
Operation: Add 


Attributes (1) 
T 


Inputs (2) 


Outputs (0) 


图 3-4 


Remove from main graph 


ftype":"DT_FLOAT?} 


AddExample/a/read 
AddExample/b/read 


读者 不 妨 基 于 图 3-4 思考 以 下 3 个 问题 。 
(1) 变量 a 和 b 是 如 何 转换 为 标量 ( scalar ) 并 传输 给 add 操作 的 ? 
(2) 张 量 和 标量 之 间 是 什么 关系 ? 
(3) 在 add 操作 属性 列表 中 ，Inputs 下 的 AddExample/a/read 是 什么 意思 ? 


在 图 3-4 所 示 的 例子 中 , 左 图 被 选中 的 节点 对 应 的 是 add 操作 , 它 的 两 条 输入 边 上 流动 的 数 
据 的 类 型 均 为 scalar。 与 add 节点 相连 的 a 节 点 保存 着 变量 a， 


使 用 TensorBoard 可 视 化 c=a+b 的 数据 流 图 ( 左 ) 和 add 操作 的 


展开 a 


属性 列表 ( 右 ) 


节点 ， 可 得 到 如 


图 3-5 所 
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示 的 变量 a 的 内 部 结构 (下 面 简称 a 子 图 )。 可 以 看 出 ,变量 a 其 实 是 由 (a)、Assign、read 和 
initial value 这 四 个 子 节点 组 合 而 成 。 当 执行 c = tf.add(a，b，name='add' ) 时 ，add 操作 通过 
调用 a 子 图 中 的 read 子 节点 ， 将 变量 a 转换 为 标量 传输 给 add 操作 。 上 节 提 到 过 ， 标 量 是 一 种 
特殊 的 张 量 ， 即 0 阶 张 量 ， 所 以 本 质 上 add 节点 的 输入 边 上 流动 的 仍然 是 张 量 表示 的 数据 。 看 到 
这 里 ，AddExample/a/read 的 含义 也 就 明确 了 ， 它 表达 了 一 个 输入 节点 的 层次 结构 : AddExample 
是 名 字 作 用 域 ，a 是 作用 域 中 的 变量 ， 而 read 是 a 内 部 的 子 节 点 。 


AddExample S| AddExample/a ~ 


Subgraph: 3 nodes ED 
add 
| Attributes (0) 
2 Inputs (0) 
Outputs (1) 
> AddExample/add scalar 


Remove from main graph 


Assign realt 
iniaLvalue O 一 *C DC 7 
Ai 
ai 


匠 
bs 


图 3-5 ”c=atb 的 数据 流 图 局 部 展开 ( 左 ) 和 a 子 图 的 属性 列表 ( 右 ) 

在 数据 流 图 计算 开始 之 前 ， 用 户 通 常 需 要 执行 tf.global variables_initializer 函数 来 
进行 全 局 变量 的 初始 化 。 其 本 质 就 是 将 initial value 传人 Assign 子 节点 , 实现 对 变量 的 初次 赋值 。 
图 3-6 展示 了 本 例 中 initial value 子 节点 的 属性 列表 。 


AddExample S| AddExample/a/initial_value ^ 
Operation: Const OO 
add 
(am Attributes (2) 
dtype {type”:"DT_FLOAT')} 
value {tensor”: 
[ {'dtype”":"DT_FLOAT",tensor_ 
© 3 shape":{Q},"float_val":1}} 
a Inputs (0) 
Outputs (0) 


{《 Remove from main graph 
\ 


Assign read CD 
intialvalue QO—»C I 
Fd 
(a) 
Cs 
CO 


ni 


图 3-6 c=atb 的 数据 流 图 局 部 展开 ( 左 ) 和 initial value 子 节点 的 属性 列表 ( 右 ) 


3.3.2 ”存储 节点 : Variable 


存储 节点 作为 数据 流 图 中 的 有 状态 节点 , 其 主要 作用 是 在 多 次 执行 相同 数据 流 图 时 存储 特定 
的 参数 ， 如 深度 学 习 或 机 融 学 习 的 模型 参数 。 对 于 无 状态 节点 ,其 输出 由 输入 张 量 季 点 操作 共 
同 确定 。 对 于 有 状态 的 节点 ， 如 存储 节点 ， 其 输出 还 会 受到 节点 内 部 保存 的 状态 值 影响 。 
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1. 变量 


TensorFlow 数据 流 图 上 的 存储 节点 抽象 是 Variable 类 , 我 们 通常 称 其 为 变量 。 如 表 3-10 所 
示 , Variable 类 提供 了 变量 的 名 称 、 数 据 类 型 、 形 状 、 初 始 值 和 初始 化 操作 等 属性 。 感 兴趣 的 
读者 可 以 在 tensorflow/python/ops/variables.py 文件 中 找到 Variable 类 的 定义 。 


表 3-10 TensorFlow 变量 的 主要 属性 


属性 名 称 功能 说 明 
name 变量 在 数据 流 图 中 的 名 称 
dtype 变量 的 数据 类 型 
shape 变量 的 形状 
initial_value 变量 的 初始 值 
initializer 计算 前 为 变量 赋值 的 初始 化 操作 
device 存储 变量 的 设备 
graph 变量 所 属 的 数据 流 图 
op 变量 操作 


如 图 3-5 所 示 ， 作 为 存储 节点 的 变量 不 是 一 个 简单 的 节点 ， 而 是 一 幅 由 多 个 子 节 点 构成 的 子 
图 。 一 个 变量 通常 由 如 下 四 种 子 节点 构成 : 
口 变量 初始 值 ; 
口 更 新 变量 值 的 操作 ; 
D 读 取 变量 值 的 操作 ; 
D 变量 操作 。 

在 本 例 的 a 子 图 中 ， 它 们 分 别 对 应 inital value、Assign 、read 和 (a) 节点 。 其 中 ， 前 三 种 节 
点 对 应 的 都 是 无 状态 操作 ， 而 变量 操作 节点 对 应 的 是 有 状态 操作 。 为 了 便于 区 分 ，TensorBoard 
在 泻 染 数据 流 图 时 ， 为 有 状态 操作 添加 了 一 对 括号 。 本 节 的 重点 是 理 清 变量 和 变量 操作 的 区 别 。 
关于 变量 的 具体 使 用 方法 ,我们 将 在 4.2 节 中 专门 介绍 。 

2. 变量 操作 

变量 操作 是 TensorFlow 中 的 一 类 有 状态 操作 ， 用 于 存储 变量 的 值 。 变 量 操作 对 应 的 操作 函 
数 是 tensorflow/python/ops/state_ops.py 文件 中 定义 的 variable_op_v2， 其 代码 如 下 所 示 : 


def variable op_v2(shape, dtype, name="Variable", container="", shared_name=""): 
"" "创建 变量 操作 """ 
return gen_state ops._variable v2(shape=shape, 
dtype=dtype， 
name=name， 
container=container， 
shared_name=shared_name) 


构造 变量 操作 时 ， 需 要 给 定 其 存储 变量 的 形状 与 数据 类 型 。 
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每 个 变量 对 应 的 变量 操作 对 象 在 变量 初始 化 时 构造 。 变 量 支 持 两 种 初始 化 方式 。 
口 初始 值 。 用 户 输入 初始 值 完 成 初始 化 。 如 果 没 有 显 式 指定 初始 值 ，TensorFlow 会 根据 变 
量 的 数据 类 型 进行 默认 初始 化 。 
口 VariableDef。 用 户 使 用 Protocol Buffers 定义 的 变量 完成 初始 化 ， 这 通常 适用 于 继续 训 
练 时 从 文件 系统 中 恢复 模型 参数 的 场景 。 

这 两 种 初始 化 方式 分 别 实现 于 Variable 类 的 私有 成 员 方 法 _init_from args 和 _init_from_ 
proto。 用 户 只 能 选择 其 中 一 种 方法 进行 初始 化 ， 和 否则 会 导致 ValueError 错误 。 

3-5 中 的 a 子 图 显然 属于 第 一 种 情况 。 当 我 们 创建 变量 a 时 ，_init_from_args 方法 内 部 调 
用 了 state_ops.variable_op_v2 函数 ， 创 建 了 该 变量 对 应 的 变量 操作 ， 并 将 其 存储 在 Variable 
实例 的 私有 成 员 变 量 _variable 中 。 下 面 是 从 _init_from_args 方法 中 摘 取 的 相关 代码 片段 : 


class Variable(object): 
def _init from args(...): 


self._variable = state ops.variable op_v2( 


shape, 
self._initial value.dtype.base_dtype, 
name=name) 
在 本 例 中 ，(a) 节点 其 实 就 是 变量 a 的 私有 成 员 变 量 _variable， 即 变量 a 的 变量 操作 。 
3-7 给 出 了 TensorBoard 对 (a) 节点 属性 的 解释 。 可 以 看 到 ，(a) 节点 实际 对 应 VariableV2 


操作 ， 它 拥有 四 个 属性 : container 、dtype、shape 和 shared_name。(a) 节点 内 部 存储 变量 a 
的 值 ， 当 用 户 想 要 读 取 或 更 改 a 的 值 时 ， 均 需要 经 由 read 或 Assign 节点 。 


AddExample S| AddExample/a/(a) ^ 
Operation: VariableV2 < 
add 
< Attributes (4) 
区 container 《sn 
dtype {type”*"DT_FLOAT’) 
shape {'shape”":0} 
© ‘9 shared_name{'s":"} 
Inputs (0) 
Outputs (2) 
AddExample/a/Assign scalar 
4 AddExample/a/read -scaler 


Assign read Remove from main graph 
initiaLvalue O—C 7 

~ 
> 


图 3-7 


c=a+b 的 数据 流 图 局 部 展开 ( 左 ) 和 (a) 节点 的 属性 列表 ( 右 ) 
3. read 节点 


现在 我 们 已 经 理 清 了 变量 和 变量 操作 的 区 别 , 明白 了 变量 操作 可 以 用 来 存储 变量 的 值 。 下面 
我 们 通过 解释 read 方 点 的 实现 原理 ， 加 深 读 者 对 于 变量 、 变 量 操 作 和 变量 值 的 理解 。 


从 Variable 类 的 源 代码 可 以 看 出 , 读 取 变量 内 部 存储 的 值 的 成 员 方 法 是 read_value。 该 方 
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法 在 内 部 调用 了 identity 操作 ， 并 将 操作 节点 名 称 设置 为 read。identity 操作 接受 一 个 变量 
作为 输入 ， 并 返回 当前 上 下 文中 变量 的 值 。read_value 方法 的 代码 如 下 所 示 : 


def read_value(self) : 
"""Returns the value of this variable, read in the current context.""" 
return array_ops.identity(self. variable, name="read") 


图 3-8 展示 了 这 一 过 程 的 内 部 实现 。 可 以 看 出 , 被 选中 的 read 节点 实际 对 应 的 是 identity 
操作 。 


AddExample 号 | AddExample/a/read ~ 
Operation: Identity > 
add 
C2 Attributes (2) 
了 % {type":"DT_FLOAT"} 
-class tistfs 
-一 一 -上 i [loc:@AddExample/a"])}} 
a © 1 Inputs (1) 
AddExample/a/(a) Scalar 
Outputs (1) 
AddExample/add scalar 
A se Remove from main graph 
Assign read 
nitialvaue OC I ED 
(a) 


图 3-8 ”c=atb 的 数据 流 图 ( 左 ) 和 read 节点 的 属性 列表 ( 右 ) 


用 户 无 须 显 式 调用 变量 的 read_value 方法 来 获取 变量 值 。 在 数据 流 图 的 计算 过 程 中 ,需要 
获取 这 些 变 量 值 的 后 置 操作 会 在 内 部 自动 完成 相关 调用 。 综 上 ， 当 用 户 执 行 c = tf.add(a，b， 
name='add' ) 时 ，add 操作 获取 变量 a 的 完整 调用 栈 如 图 3-9 所 示 。 这 里 的 convert_to_tensor 
方法 用 于 尝试 将 多 种 形式 的 输入 转换 为 张 量 ， 因 为 TensorFlow 操作 的 输入 不 仅 支 持 张 量 ， 同 时 
也 支持 列表 、 数 组 和 标量 等 。 


c= tf.add (a, bname= add) 


convert to_tensor (a) 


aread value () 


array_ops.identity (a ._variable , name="read") 


图 3-9 add 操作 获取 变量 a 的 调用 栈 


通过 上 面 的 分 析 , 我 们 可 以 得 到 如 下 结论 : 变量 是 有 状态 的 节点 ,其 内 部 的 变量 操作 长 期 保 
存 变量 对 应 的 值 。 变量 值 的 生命 周期 与 数据 流 图 相同 ,在 数据 流 图 执行 过 程 中 始终 存在 。 普 通 节 
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点 没有 内 部 状态 ， 即 不 长 期 保存 任何 值 。 它 们 操作 的 对 象 是 输入 、 输 出 边 上 流动 的 张 量 , 这 些 张 
量 都 是 临时 创建 的 。 当 依赖 它们 的 所 有 操作 执行 完成 后 , 这 些 节 点 及 临时 张 量 的 内 存 便 会 被 释放 。 


3.3.3 数据 节点 : Placeholder 


TensorFlow 数据 流 图 描述 了 数学 模型 的 计算 拓扑 , 其 中 各 个 操作 广 点 都 是 抽象 的 函数 映射 或 
数学 表达 式 。 换 句 话说 ， 数 据 流 图 本 身 是 一 个 具有 计算 拓扑 和 内 部 结构 的 “过”"。 在 用 户 向 数据 
流 图 填充 数据 前 ， 图 中 并 没有 真正 执行 任何 计算 。 

通常 , 用 户 在 创建 模型 时 已 经 明确 输入 数据 的 类 型 和 形状 等 属性 ,而 模型 的 第 一 步 计 算 很 可 
能 就 需要 使 用 这 些 输入 数据 。TensorFlow 数据 节点 的 作用 便 是 定义 待 输入 数据 的 属性 , 使 得 用 户 
可 以 描述 数据 特征 , 从 而 完成 模型 创建 。 当 数据 流 图 执行 时 , TensorFlow 会 向 数据 节点 填充 (feed ) 
用 户 提供 的 、 符 合 定义 的 数据 。TensorFlow 内 部 将 填充 的 数据 转换 为 张 量 后 ， 按 照 数据 流 图 的 拓 
扑 结构 执行 计算 。 因 此 ,在 创建 模型 的 阶段 ， 用户 不 需要 向 数据 流 图 输入 任何 数据 。 但 在 实际 计 
算 时 ， 如 果 没 有 填充 正确 的 数据 ， 程 序 就 会 出 错 。 


TensorFlow 数据 节点 由 占 位 符 操 作 (placeholder operation ) 实现 ， 它 对 应 的 操作 函数 是 
tf.placeholder。 针 对 稀 巩 数据 ，TensorFlow 亦 提供 了 稀 琉 占 位 符 操作 ( sparse placeholder 
operation )， 其 操作 函数 是 tf .sparse_placeholder。 表 3-11 列 出 了 这 两 个 函数 的 输入 参数 。 


表 3-11 TensorFlow 占 位 符 和 稀 下 占 位 符 操作 浮 数 的 输入 参数 


属性 名 称 功能 说 明 
name 占 位 符 操作 在 数据 流 图 中 的 名 称 
dtype 填充 数据 的 类 型 
shape 填充 数据 的 形状 
典型 用 例 


下 面 我 们 分 别 列举 占 位 符 和 稀 玲 占 位 符 操作 的 典型 使 用 示例 , 以 帮助 用 户 快 速 掌握 它们 的 使 
用 方法 和 诀 宅 。 

在 下 面 的 代码 中 , x 是 由 占 位 操作 符 创建 的 2 阶 张 量 , 其 形状 为 [2,2], 数据 类 型 为 单 精度 浮 
点 数 ; y 是 matmul 操作 输出 的 张 量 ， 它 以 x 作为 输入 参数 。 根 据 依赖 控制 ， 用 户 需 要 先 填 充满 
足 x 定义 的 张 量 ， 才 能 使 得 y 开始 执行 。 然 而 ， 这 有 段 代码 没有 为 x 填充 数据 ， 所 以 TensorFlow 
会 抛 出 参数 不 可 用 错误 ( InvalidArgumentError )， 提 示 用 户 为 x 填充 符合 占 位 符 约 束 的 张 量 : 


import tensorflow as tf 
import numpy as np 


with tf.name_scope("PlaceholderExample"): 
# 定义 形状 为 [2，2] 的 单 精度 浮 点 数 矩 阵 
x = tf.placeholder(tf.float32, shape=(2, 2), name="x") 
y = tf.matmul(x, x, name="matmul") 
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with tf.Session() as sess: 
# 直接 执行 matmul 操作 获取 张 量 y 的 值 时 ， 会 报错 ， 因 为 没有 为 X 填充 数据 
print(sess.run(y)) 
”输出 : 
InvalidArgumentError : You must feed a value for placeholder tensor 'PlaceholderExample/x' 
with dtype float and shape [2,2] 


3-10 是 使 用 TensorBoard 可 视 化 上 面 代 码 所 得 数据 流 图 的 结果 。 从 选中 的 matmul 节点 的 
属性 来 看 ， 该 节点 依赖 于 输入 张 量 x。 如 果 用 户 想 要 正确 执行 matmul 节点 ， 那 么 必须 向 x 填充 
数据 。 


PlaceholderExample/matmul A 
PlaceholderExamp 民 Operation: MatMul 
Attributes (3) 
matmul T {"type":"DT_FLOAT"} 


OO Pacenolder. | tanspose a fb"false} 


transpose_b {"b":false} 


Inputs (1) 
PlaceholderExample/x we 
Outputs (1) 
四 PlaceholderExample_1 s 


Remove from main graph 


图 3-10 使 用 TensorBoard 可 视 化 y=matmul(x，x) 所 得 的 数据 流 图 ( 左 ) 和 
matmul 节点 的 属性 列表 ( 右 ) 


为 了 解决 输入 参数 不 可 用 的 问题 ,一 种 方法 是 调用 NumPy 库 的 随机 数 生成 方法 np.random.rand 
(默认 的 数据 类 型 为 单 精 度 浮 点 数 )， 并 通过 Session.run 方法 的 feed_dict 参数 将 生成 的 随机 
数 填充 到 x。 这 样 一 来 ， 程 序 便 可 以 正确 执行 ， 并 输出 计算 结果 。 需 要 修改 的 代码 如 下 所 示 : 


with tf.Session() as sess: 
# 将 符合 定义 的 数据 填充 进 X 后 ,正确 执行 
rand_array = np.random.rand(2, 2) 
print(sess.run(y, feed dict={x: rand_array})) 


输出 : 
[[ 0.27517948 8.1988695 ] 
[ 86.07253421 8.37964623]] 


最 后 ， 我 们 给 出 一 段 稀 朴 占 位 符 操作 的 典型 用 例 : 


import tensorflow as tf 
import numpy as np 


# 没有 显 式 指定 数据 形状 ， 表 示 可 以 填充 任意 形状 的 单 精度 浮 点 数 稀 跌 张 量 
x = tf.sparse_placeholder(tf.float32) 
y = tf.sparse_reduce_sum(x) 


with tf.Session() as sess: 
# 设置 非 震 元 素 的 索引 为 [3，2，68] 和 [4，5，1] 
indices = np.array([[3，2，6]，[4，5，1]]，dtype=np.int64) 
# 设置 索引 为 [3，2，68] 和 [4，5，1] 元 素 的 值 分 别 为 1.6 和 2.6 
values = np.array([1.6，2.6]，dtype=np.float32) 


邮 


3.4 运行 环境 : 会 话 55 


# 设置 稀疏 张 量 对 应 的 稠密 张 量 形状 为 [7，9，2] 
shape = np.array([7, 9, 2], dtype=np.int64) 
# 向 X 填充 稀 路 张 量 
print(sess.run(y, feed dict={ 
x: tf.SparseTensorValue(indices, values, shape)})) 
# 向 X 填 充 张 量 3 元 组 (indices，Vvalues，shape) 
print(sess.run(y, feed dict={x: (indices, values, shape)})) 
# 向 Xx 填充 NumPy 多 维 数组 
sp = tf.SparseTensor(indices=indices, values=values, dense_shape=shape) 
sp_value = sp.eval() 
print(sess.run(y, feed dict={x: sp_value})) 


pe 
-®®OOE 


在 该 例 中 ，x 是 稀 玻 占 位 符 操作 返回 的 稀 玻 张 量 ， 其 元 素数 据 类 型 为 单 精 度 浮 点 数 ， 形 状 未 
定 。y 是 对 x 中 的 所 有 元 素 进 行 归 约 求 和 计算 的 结果 。 这 里 定义 了 3 个 NumPy 数组 一 一 indices、 
values 和 shape， 分 别 表示 稀 足 张 量 中 非 零 元 素 的 索引 、 值 ， 以 及 对 应 的 稠密 张 量 形 状 。 我 们 
以 3 种 不 同 的 格式 向 x 填充 数据 ， 并 执行 数据 流 图 ， 程 序 均 能 输出 符合 预期 的 结 


3.4 ”运行 环境 : 会 话 


TensorFlow 数据 流 图 描述 了 计算 的 拓扑 结构 和 所 需 的 数据 属性 ， 但 数据 流 图 本 身 仅 是 一 个 
“ 壳 ”。 只 有 在 图 中 填充 了 数据 、 选 择 了 待 求解 的 张 量 ， 并 执行 了 相应 的 计算 操作 后 ， 才 能 取得 最 
终结 果 。TensorFlow 会 话 为 用 户 提供 了 上 述 计算 过 程 的 运行 环境 , 它 本 质 上 是 在 维护 一 段 运行 时 
上 下 文 。 会 话 通过 提取 和 切 分 数据 流 图 、 调 度 并 执行 操作 节点 ,将 抽象 的 计算 拓扑 转化 为 设备 上 
的 执行 流 ， 从 而 帮助 用 户 完成 计算 任务 。 本 节 主 要 介绍 TensorFlow 会 话 的 定义 和 使 用 方法 ， 并 
对 比 普通 会 话 和 交互 式 会 话 的 异同 。 


3.4.1 普通 会 话 : Session 


TensorFlow 会 话 提 供求 解 张 量 和 执行 操作 的 运行 环境 。 它 是 发 放 计 算 任务 的 客户 端 , 所 有 计 
算 任 务 都 由 它 分 发 到 其 连接 的 执行 引擎 完成 。 在 Python API 中 ， 会 话 由 tensorflow/python/ 
client/session.py 文件 定义 的 session 类 实现 。 一 个 会 话 的 典型 使 用 流程 分 为 3 步 : (1) 创建 会 话 ; 
(2) 运行 会 话 ; (3) 关闭 会 话 。 框 架 性 代码 如 下 所 示 : 


sess = tf.Session() # (1) 创 建 会 话 


sess.run(...) # (2) 运行 会 话 

sess.close() # (3) 关闭 会话 

下 面 我 们 分 别 介绍 会 话 的 这 3 步 典 型 使 用 流程 。 
1. 创建 会 话 


会 话 为 TensorFlow 数据 流 图 提供 运行 环境 ， 用 户 一 般 通 过 调用 session 类 的 构造 方法 来 创 
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建 会 话 实例 。 典型 的 会 


会 话 实例 具有 3 个 主要 属性 : 会 话 连 接 的 执行 
其 启动 配置 项 。 ie 3-12 所 示 ， 这 3 个 属性 均 是 session ep 


表 3-12 ”Session 构造 方法 的 输入 参数 


、 加 载 的 数据 流 图 及 


参数 名 称 功能 说 明 

target 会 话 连接 的 执行 引擎 
graph 会 话 加 载 的 数据 流 图 
config 会 话 启动 时 的 配置 项 


target 参数 的 默认 值 指向 进程 内 引擎 
式 指定 它 。 本 节 仅 分 析 单机 运行 的 场景 。 


图 。 当 用 户 没有 设置 graph 参数 时 ， 


(in-process engine )， 


参数 。 表 3-13 列 出 了 会 话 的 主要 配置 参数 。 


目 户 可 使 用 ConfigProto > 


因此 用 户 执行 单机 任务 时 无 需 显 
分 布 式 运行 模式 涉及 TensorFlow 集群 和 分 布 式 会 话 的 
配置 ， 我 们 将 在 5.2 节 中 专门 介绍 。graph 参数 的 默认 值 指向 当前 代码 中 的 唯一 一 幅 默 认 数据 流 


会 话 加 载 默认 数据 流 图 ; 当 用 户 在 代码 中 定义 了 多 幅 数据 流 
图 时 ， 则 需要 通过 graph 显 式 指 定 待 加 载 的 数据 流 图 。config 参数 详细 描述 了 会 话 的 各 项 配置 
信息 ， 保 证 会 话 启 动 后 能 够 按照 用 户 希 望 的 状态 运行 。 它 由 tensorflow/core/protobufyconfig. proto 


文件 中 的 configProto 数据 结构 定义 ， 月 类 的 构造 方法 创建 会 话 的 配置 


表 3-13 会 话 的 主要 配置 参数 

参数 名 称 功能 说 明 数据 类 型 
device_count 设备 数量 字典 ， 形 如 < 设备 类 型 ， 最 大 使 用 数量 > map<string, int32> 
intra_op_parallelism threads 独立 操作 并 行 计 算 线 程 数 int32 
inter_op_parallelism threads a f 行 计算 线程 数 int32 
use_per_session threads 否 使 用 一 套 独 立 线 程 池 取代 全 局 线程 池 bool 
session_ inter op_thread pool a ThreadPoolOptionProto 
placement_period 重新 计算 分 配 节 点 到 设备 的 周期 int32 
device filters 过 滤 掉 不 使 用 的 设备 string 
gpu_options GPU 的 配置 参数 GPUOptions 
allow_soft_placement 在 没有 GPU 可 用 时 ， 是 否 将 操作 放置 到 CPU 执行 ”| bool 
1og_device_placement 是 否 打 印 设 备 放置 日 志 bool 
graph_options 数据 流 图 的 配置 参数 GraphOptions 
operation timeout in ms 阻塞 操作 的 最 长 时 限 int64 
rpc_options 分 布 式 任务 运行 时 的 RPC 配置 参数 RPCOptions 


假设 用 户 希 望 在 没有 GPU 时 ，TensorFlow 能 够 自动 将 计算 任务 转移 到 CPU 上 运行 ， 并 希望 
通过 日 志 验 证 放置 情况 ， 那 么 可 以 使 用 如 下 参数 创建 会 话 : 


sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True， 


log_device placement=True)) 


2. 运行 会 话 

运行 会 话 是 指 基于 数据 流 图 和 输入 数据 , 求解 张 量 或 执行 操作 的 过 程 。session 类 用 于 运行 
会 话 的 方法 是 run, 该 方法 的 输入 参数 见 表 3-14。 由 于 会 话 构造 时 已 经 绑 定 了 数据 流 图 ,在 运行 
时 只 需要 指定 待 求 解 的 张 量 和 待 填充 的 数据 即 可 。fetches 参数 用 于 指定 用 户 待 获取 的 张 量 ,， 即 
和 希望 经 由 会 话 求 解 的 对 象 ; feed_dict 参数 用 于 指定 需要 填充 的 数据 节点 及 对 应 的 输入 数据 。 值 
得 一 提 的 是 ，fetches 参数 不 仅 可 以 接受 张 量 ， 而 且 也 能 接受 操作 ， 因 为 操作 的 输出 本 质 上 也 是 
张 量 。 


表 3-14 Session.run 方法 的 输入 参数 


参数 名 称 功能 说 明 
fetches 待 求解 的 张 量 或 操作 
feed_dict 数据 填充 字典 ， 形 如 < 数据 节点 ， 填 充 数 据 > 
options Runoptions 对 象 ， 用 于 设置 会 话 运行 时 的 可 选 特性 开关 
run_metadata RunMetadata 对 象 ， 用 于 收集 会 话 运行 时 的 非 张 量 元 信息 输出 


对 于 没有 数据 依赖 的 张 量 ， 调 用 session.run 方法 时 无 需 指定 数据 填充 字典 。 示 例 代码 如 下 : 


import tensorflow as tf 

# 创建 数据 流 图 : C =a *b 

a = tf.constant(5.6) 

b = tf.constant(6.6) 

C- = ai 

sess = tf.Session() 

# 求解 张 量 c 的 值 ， 没 有 依赖 数据 节点 ， 所 以 无 需 填 充 数据 
print(sess.run(c)) 


输出 : 
36.6 


对 于 存在 数据 依赖 的 张 量 ， 调 用 session.run 方法 时 ， 则 需要 指定 数据 填充 字典 。 示 例 代 
码 如 下 : 


import tensorflow as tf 

# 创建 数据 流 图 : Z = X * y， 其 中 XxX 和 均 为 数据 节点 

x = tf.placeholder(tf.float32) 

y = tf.placeholder(tf.float32) 

z=x*y 

sess = tf.Session() 

# 求解 张 量 z 的 值 ; 对 数据 节点 X 和 y 分 别 填充 输入 数据 3.8 和 2.0 
print(sess.run(z, feed dict={x: 3.6，y: 2.0})) 


输出 : 
6.6 


除了 可 以 使 用 Session.run 方法 求解 张 量 ,我 们 还 在 3.2 节 中 提 到 过 Tensor 类 的 eval 方法 。 
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事实 上 ,能 够 实现 张 量 求解 的 还 有 operation 类 的 run 方法 ,图 3-11 和 图 3-12 分 别 展示 了 Tensor . 
eval 和 0peration.run 方法 的 调用 栈 。 可 以 看 出 , 它们 的 内 部 实现 均 调 用 了 session.run 方法 。 


Tensor.eval(self, feed_dict, session) 


_eval using default_session (tensors, feed_dict , graph, session) 


Session.run (tesnsor , feed_dict ) 


图 3-11 Tensor.eval 方法 的 调用 栈 


Operation.run (Self feed_dict , session) 


_run using default_session (operation, feed_dict , graph, session) 
Session.run (operation, feed_dict) 


图 3-12 ”Operation.run 方法 的 调用 栈 


相 比 session.run 方法 ，Tensor.eval 和 0peration.run 方法 增加 了 输入 参数 session， 
它 用 来 指定 求解 张 量 和 执行 操作 的 会 话 实 例 。 如 果 用 户 没有 显 式 设 置 session 参数 ，TensorFlow 
不 会 自动 使 用 之 前 创建 的 会 话 实例 。 这 时 如 果 直 接 调用 Tensor .eval 或 0peration.run 方法 ， 
程序 就 会 抛 出 找 不 到 默认 会 话 实 例 的 错误 。 对 于 这 种 场景 ， 用 户 可 以 使 用 with 语句 创建 和 运行 
会 话 。with 语句 会 隐 式 调用 新 建 的 session 对 象 的 _enter _ 方法 ,将 当前 的 会 话 实例 注册 为 
默认 会 话 。 因 此 , 在 with tf.Ssession() as sess: 语 句 块 中 ， 用 户 可 以 使 用 更 简单 的 参数 调用 
Tensor.eval 和 0peration.run 方法 。 示 例 代 码 如 下 : 


mport tensorflow as tf 

创建 数据 流 图 : y = W * X + b， 其 中 W 和 bb 为 存储 节点 ，X 为 数据 节点 

tf.placeholder(tf.float32) 

tf.Variable(1.06) 

tf.Variable(1.6) 

W*x+b 

ith tf.Session() as sess: 

tf.global_ variables initializer().run() # Operation.run 

fetch = y.eval(feed dict={x: 3.6}) # Tensor.eval 
print(fetch) # fetch = 1.6 * 3.6 + 1.6 


i 
# 
x 
W 
b 
y 
W 


输出 : 
4.0 

3. 关闭 会 话 

会 话 提 供 了 TensorFlow 数据 流 图 的 运行 环境 ， 它 同时 也 拥有 变量 、 队 列 和 文件 句柄 等 资源 。 
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当 执 行 完 计算 任务 后 ,应 该 主动 关闭 会 话 ， 以 便 释放 这 些 资 源 。 用 户 一 般 可 以 通过 以 下 两 种 方式 
关闭 会 话 。 
口 使 用 close 方法 显 式 关闭 会 话 ， 例 如 : 
sess.close() 
口 使 用 with 语句 隐 式 关闭 会 话 ， 例 如 : = 
with tf.Session() as sess: 
sess.run(...) 
# Session. exit__ 方法 被 隐 式 调用 ， 进 而 调用 Session.close 方法 关闭 会 话 


3.4.2 ”交互 式 会 话 : InteractiveSession 


TensorFlow 交互 式 会 话 为 用 户 提 供 类 似 shell 的 交互 式 编程 环境 , 它 由 InteractiveSession 
类 实现 。 该 类 的 构造 方法 不 仅 完成 了 交互 式 会 话 实例 的 创建 ,同时 将 该 实例 注册 为 默认 会 话 ， 这 
是 交互 式 会 话 与 普通 会 话 的 重要 区 别 。 因 此 , 如 果 用 户 使 用 交互 式 会 话 作 为 数据 流 图 的 运行 环境 ， 
便 可 以 不 借助 with 上 下 文 语句 块 , 直接 调用 Tensor .eval 和 0peration.run 方法 求解 张 量 、 执 
行 操作 。 在 这 种 情况 下 ， 用 户 仍 需 显 式 调用 Interactivesession.close 方法 关闭 会 话 。 


使 用 交互 式 会 话 求解 张 量 的 示例 如 下 : 


import tensorflow as tf 
# 创建 数据 流 图 : Cc = a * b 
a = tf.constant(5.6) 

b = tf.constant(6.6) 
C 
# 


=a*b 

创建 交互 式 会 话 
sess = tf.InteractiveSession() 
# 求解 张 量 c 的 值 
print(c.eval()) 
# 关闭 交互 式 会 话 
sess.close() 


输出 : 
306.0 
3.4.3 扩展 阅读 : 会 话 实现 原理 
下 面 简要 介绍 TensorFlow Python API 层面 会 话 类 的 实现 原理 ， 帮 助 读 者 加 次 对 会 话 的 理解 。 


Session 类 与 InteractiveSession 类 均 继 承 自 BaseSession 类 , BaseSession 类 实现 了 接 
口 类 sessionInterface 定义 的 会 话 基 本 属性 。 这 些 类 的 UML 类 图 如 图 3-13 所 示 。 
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SessionInterface 


graph 
sess_str 


partial_run 


partial_run_setup 


run 


graph 
graph_def 


sess_str 


as_default 


close 


partial_run 


partial_run_setup 


run 


图 3-13” 几 种 会 话 类 的 UML 类 图 


与 Java 和 C++ 不 同 , Python 语言 没有 内 置 的 接口 和 抽象 类 , 但 可 以 利用 异常 机 制 抛 出 错误 ， 
强制 子 类 必须 实现 特定 的 属性 和 成 员 方法 。 以 下 代码 展示 了 SessionInterface 类 提供 的 会 话 访 


问 接口 : 


class SessionInterface(obJject) : 


# 会 话 加 载 的 数据 流 
@property 
def graph(self): 


图 


raise NotImplementedError('graph') 


# 会 话 连接 的 执行 引擎 


@property 


def sess_str(self): 
raise NotImplementedError('sess_str') 
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# 求解 张 量 、 执 行 操作 
def run(self, fetches, feed dict=None, options=None, run_metadata=None): 
raise NotImplementedError('run') 


# 为 partial_run_setup 方法 设置 feeds 和 fetches 参数 
def partial_run_setup(self, fetches, feeds=None): 
raise NotImplementedError('partial_run_setup') 


# 使 用 partial_run 方法 设置 的 feeds 和 fetches 参数 ， 继 续 执行 计算 任务 
def partial_run(self，handle，Tfetches，feed_dict=None) : 
raise NotImplementedError('partial_run') 


BaseSession 类 继承 了 SessionInterface 类 ， 并 新 增 了 as_default 和 close 方法 ， 这 两 
个 方法 的 作用 分 别 是 将 当前 Basesession 实例 注册 为 默认 会 话 ， 以 及 关闭 当前 Basesession 实 
例 。 同 时 ， 还 新 增 了 属性 graph_def， 它 表示 序列 化 后 的 数据 流 图 ,方便 用 户 从 文件 中 加 载 数 据 
流 图 继续 训练 。 虽 然 Basesession 类 实现 了 执行 数据 流 图 计算 任务 的 方法 ,但 是 用 户 并 不 能 使 
用 这 个 类 ， 而 应 使 用 其 子 类 session 和 Interactivesession。 从 面向 对 象 的 设计 思想 看 ， 前 者 
实现 了 两 种 会 话 的 公共 方法 ， 而 后 两 者 则 实现 会 话 上 下 文 的 不 同 管理 方法 。 

Session 和 InteractiveSession 类 分 别 实现 了 reset 和 close 方法 。Session 类 的 reset 
方法 主要 用 于 分 布 式 会 话 的 资源 释放 , 包括 释放 队列 和 文件 句柄 资源 , 以 及 重 置 数据 流 图 中 的 变 
量 。InteractiveSession 类 重 写 了 父 类 的 close 方法 ， 其 作用 是 在 关闭 交互 式 会 话 实 例 的 同时 
注销 加 载 的 数据 流 图 。 


3.5 训练 工具 : 优化 器 


机 器 学 习 方 法 能 够 在 给 定 的 数据 中 发 现 潜在 的 模式 , 并 将 发 现 的 模式 应 用 于 新 数据 。 机 融 学 
习 大 致 分 为 3 种 类 型 ， 分 别 是 监督 学 习 、 无 监督 学 习 和 半 监 督学 习 。 其 中 , 监督 学 习 是 目前 工业 
界 应 用 最 广泛 的 一 类 方法 。 典 型 的 监督 学 习 问 题 由 3 部 分 组 成 : 模型 、 损 失 函 数 和 优化 算法 。 在 
数据 中 发 现 的 潜在 模式 就 是 人 们 和 常 说 的 模型 。 有 的 模型 可 以 通过 解析 式 精确 定义 ， 如 线性 回归 、 
逻辑 回归 、 高 斯 混合 模型 等 ， 有 的 模型 则 不 能 ， 如 多 层 感 知 机 、 深 度 神 经 网 络 等 。 

简单 来 说 , 模型 本 身 是 一 系列 数学 表达 式 和 一 组 参数 的 组 合 。 监 督学 习 的 模型 训练 是 指 在 给 
定数 据 上 不 断 拟 合 , 以 求 出 一 组 在 测试 数据 集 上 使 得 推理 值 尽 可 能 接近 真实 值 的 模型 参数 。 损 失 
函数 是 指 表达 模型 推理 值 同 真实 值 差 距 的 函数 , 用 于 评估 模型 的 拟 合 程度 ; 优化 算法 则 是 指使 用 
损失 值 不 断 优化 模型 参数 ， 以 尽 可 能 减 小 损失 值 的 算法 。 目 前 ,主流 的 监督 学 习 方 法 主要 采用 基 
于 梯度 下 降 的 优化 算法 进行 模型 训练 。 本 节 首 先 介绍 损失 函数 与 优化 算法 等 背景 知识 ,然后 讲解 
TensorFlow 优化 器 的 定义 和 使 用 方法 ， 最 后 分 析 TensorFlow 优化 器 的 实现 原理 。 


3.5.1 损失 函数 与 优化 算法 
为 了 更 好 地 理解 模型 训练 和 优化 器 的 工作 原理 ， 我 们 首先 介绍 监督 学 习 中 最 重要 的 两 个 概 


Si 
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念 : 损失 函数 和 优化 算法 。 

1. 损失 函数 

损失 函数 是 评估 特定 模型 参数 和 特定 输入 时 , 表达 模型 输出 的 推理 值 与 真实 值 之 间 不 一 致 程 
度 的 函数 。 损 失 函 数 工 的 形式 化 定义 如 下 : 

loss = LOf(xi,0), y 3) 

其 中 , x 是 第 i 个 输入 样本 ，09 是 模型 参数 , f 是 用 于 形式 化 表示 模型 的 数学 函数 ,yj 是 x 对 应 的 
真实 值 。 常见 的 损失 函数 有 平方 损失 函数 、 交 叉 信 损 失 函 数 和 指数 损失 函数 等 ,下 面 分 别 展示 了 
它们 的 标准 公式 : 


loss = (y—f(xi:0)) 
loss =y.; * log(f (xi;0)) 
loss = exp(—y.; */ (xi;0)) 
损失 函数 是 一 个 非 负 实 值 函 数 , 值 越 小 说 明 模型 对 训练 集 拟 合 得 越 好 。 使 用 损失 函数 对 所 有 
训练 样本 求 损失 值 ， 再 累加 求 平均 可 得 到 模型 的 经 验 风 险 Rp(f)。 换 句 话说 ，fx) 关 于 训练 集 的 
平均 损失 就 是 经 验 风 险 ， 其 形式 化 定义 如 下 : 


Ra) YL C0),y) 


然而 ,如 果 过 度 追 求 训练 数据 上 的 低 损 失 值 ， 就 会 遇 到 过 拟 合 问题 。 训 练 集 通常 并 不 能 完全 
代表 真实 场景 的 数据 分 布 。 当 两 者 的 分 布 不 一 致 时 ， 如 果 过 分 依赖 训练 集 上 的 数据 ,， 面 对 新 数据 
时 就 会 无 所 适 从 ,这 时 模型 的 泛 化 能 力 就 会 变 差 。 模 型 训练 的 目标 是 不 断 最 小 化 经 验 风 险 。 随 着 
训练 步 数 的 增加 ， 经 验 风 险 将 逐渐 降低 ,模型 复杂 度 也 将 逐渐 上 升 。 为 了 降低 过 度 训 练 可 能 造成 
的 过 拟 合 风险 ， 可 以 引入 专门 用 来 度量 模型 复杂 度 的 正则 化 项 〈regularizer ) 或 惩罚 项 〈penalty 
term ) J(0)。 常 用 的 正则 化 项 有 LO、L1 和 L2 范 数 。 综 上 ， 我 们 将 模型 最 优化 的 目标 替换 为 健壮 
性 更 好 的 结构 风险 最 小 化 〈structural risk minimization，SRM )。 如 下 所 示 ， 它 由 经 验 风 险 项 和 正 
则 项 两 部 分 构成 ， 其 中 代表 正则 项 的 权重 : 


Rf )= in LG;0), yi) +47(0) 


在 模型 的 训练 过 程 中 ,结构 风险 不 断 降低 。 当 Ryw(7) 小 于 我 们 设置 的 损失 值 阔 值 时 ， 则 认为 
此 时 的 模型 已 经 满足 需求 。 因此 , 模型 训练 的 本 质 就 是 在 最 小 化 结构 风险 的 同时 取得 最 优 的 模型 
参数 。 最 优 模 型 参数 的 形式 化 定义 如 下 : 


0 =argmin, R,(f)=argmin, TE L000), y.;)+ 1A49P(0) 
2. 优化 算法 
典型 的 机 器 学 习 和 深度 学 习 问 题 通 常 都 需要 转换 为 最 优化 问题 进行 求解 。 最 优化 是 应 用 数学 
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的 一 个 分 支 ， 主要 研究 以 下 形式 的 问题 : 给 定 一 个 函数 4 一 R， 寻 找 一 个 属于 集合 4 的 元 素 xo， 
使 得 对 于 4 中 的 所 有 x， f(xo) 志 f(x) (最 小 化 ), 或 者 f(x0) 二 f(x) (最 大 化 )。 这 里 的 函数 f 称 为 目 
标 函 数 ，4 的 元 素 称 为 可 行 解 ， 使 得 目标 函数 值 最 小 化 的 可 行 解 称 为 最 优 解 。 求 解 最 优化 问题 的 
算法 称 为 优化 算法 ,它们 通常 采用 迁 代 方式 实现 : 首先 设 定 一 个 初始 的 可 行 解 ， 然后 基于 特定 的 
函数 反复 重新 计算 可 行 解 , 直到 找到 一 个 最 优 解 或 达到 预 设 的 收敛 条 件 。 不同 的 优化 算法 采用 的 
和 迭代 策略 各 有 不 同 ,有 的 使 用 目标 琢 数 的 一 阶 导 数 ， 如 梯度 下 降 法 ; 有 的 使 用 目标 函数 的 二 阶 导 
数 ， 如 牛顿 法 ; 有 的 使 用 前 几 轮 迭代 的 信息 ， 如 Adam。 基 于 梯度 下 降 法 的 迭代 策略 最 简单 ， 它 
直接 沿 着 梯度 负 方 向 ， 即 目标 函数 减 小 最 快 的 方向 进行 直线 搜索 。 这 种 方法 的 计算 表达 式 为 : 


Xit1= Xx — OQ*grad(xx) 


梯度 下 降 法 的 优点 是 计算 量 小 , 仅 计算 一 阶 导数 即 可 ; 它 的 缺点 是 收敛 速度 慢 ， 只 色 
性 收敛 。 梯 度 下 降 法 过 于 简单 的 策略 导致 其 在 优化 复杂 模型 时 几乎 不 会 被 使 用 。 


下 面 我 们 以 一 个 具体 的 例子 来 说 明 损 失 函 数 与 优化 算法 的 作用 。 该 问题 的 构成 元 素 如 下 。 


we 
下 
Naz 
A 
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口 模型 
y=f Co = WHO 
其 中 , x 是 输入 数据 ，y 是 模型 输出 的 推理 值 ，w 和 4b 是 模型 参数 。 
口 损失 函数 : 


loss = 7(y,y )=L(wxtb, y_) 
其 中 ,，y_ 是 x 对 应 的 真实 值 (标签 )，loss 为 损失 函数 输出 的 损失 值 。 
口 优化 算法 : 


Oloss 
Ow 
Oloss 
Ob 


其 中 ，grad(w) 和 grad(b) 分 别 表示 在 损失 值 为 loss 时 w 和 4 对 应 的 梯度 值 ，a 为 学 习 率 。 

模型 的 训练 过 程 将 上 述 3 个 部 分 联系 起 来 。 模型 f(x) 的 具体 形式 可 以 千变万化 , 但 本 质 上 都 
是 输入 数据 为 x、 输 出 推理 值 为 y 的 数学 函数 。 损 失 函 数 的 作用 是 定量 描述 推理 值 y 与 真实 值 y_ 
的 不 一 致 程度 ， 即 求 得 损失 值 loss。 利 用 损失 值 和 模型 的 拓扑 结构 ， 可 以 计算 出 模型 参数 的 梯度 
值 gradients。 随 后 ,优化 算法 以 一 种 高 效 而 合理 的 方式 将 梯度 值 更 新 到 对 应 的 模型 参数 ， 完 成 模 
型 的 一 步 迭 代 训 练 。 

3-14 是 使 用 TensorBoard 可 视 化 上 述 模 型 所 得 的 数据 流 图 的 结果 。 我 们 有 意 不 展示 模型 
推理 值 y 和 梯度 gradients 的 内 部 结构 细节 ， 目 的 是 希望 此 图 具有 泛 化 的 含义 ， 而 非 代 表 某 个 特 
定 的 模型 。 


we- wi+oa*grad(w)= 0 


b+b+t+a*grad(bp)=a 
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图 3-14 ”典型 机 器 学 习 或 深度 学 习 模 型 的 数据 流 图 


3.5.2 ”优化 器 概述 


优化 器 是 TensorFlow 实现 优化 算法 的 载体 ， 它 为 用 户 实现 了 自动 计算 模型 参数 梯度 值 的 功 
能 。TenosrFlow 的 优化 器 根据 前 向 图 的 计算 拓扑 和 损失 值 , 利用 链 式 求 导 法 则 依次 求 出 每 个 模型 
参数 在 给 定数 据 下 的 梯度 值 ， 并 将 其 更 新 到 对 应 的 模型 参数 以 完成 一 个 完整 的 训练 步 又。 因此 ， 
优化 器 可 以 称 为 TensorFlow 的 训练 工具 。 


为 了 说 明 优化 算法 的 实现 原理 ， 我 们 将 图 3-14 中 gradients 子 图 内 计算 梯度 值 的 结构 展开 。 
如 图 3-15 所 示 ，gradients 子 图 是 由 TensorFlow 优化 器 自动 生成 的 梯度 计算 子 图 ， 即 后 向 图 。 其 
中 loss 和 y 分别 表示 对 前 向 图 中 损失 值 和 推理 值 求 梯度 的 子 图 。 
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图 3-15 ”计算 梯度 值 的 子 图 内 部 结构 
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表 3-15 罗列 了 TensorFlow Python API 为 用 户 提供 的 所 有 优化 器 ， 图 3-16 给 出 了 其 中 部 分 
典型 优化 器 的 类 型 继承 关系 。 优 化 需 的 基 类 是 0ptimizer， 它 定义 在 tensorflow/python/training/ 
optimizer.py 文件 中 。 与 Basesession 类 的 情况 类 似 ， 用 户 并 不 会 直接 创建 optimizer 类 的 实 
例 ， 而 是 需要 创建 特定 的 子 类 实例 。 这 些 优 化 器 均 定 义 在 tensorflow/python/training 目录 下 。 其 
中 ， 除 了 同步 优化 器 (Synchronize Replicas Optimizer ) 是 为 分 布 式 训练 设计 的 优化 器 外 ， 其 余 
都 是 用 于 单机 模型 训练 的 优化 器 。 这 些 单机 优化 器 经 过 同步 优化 器 封装 之 后 ， 也 可 以 应 用 于 分 
布 式 训练 场景 。 


表 3-15 TensorFlow 提供 的 优化 器 


优化 器 名 称 文件 路 径 
Adadelta tensorflow/python/training/adadelta.py 
Adagrad tensorflow/python/training/adagrad.py 
Adagrad Dual Averaging tensorflow/python/training/adagrad_da.py 
Adam tensorflow/python/training/adam.py 
Ftrl tensorflow/python/training/ftrl.py 
Gradient Descent tensorflow/python/training/gradient descent.py 
Momentum tensorflow/python/training/momentum.py 
Proximal Adagrad tensorflow/python/training/proximal adagrad.py 
Proximal Gradient Descent tensorflow/python/training/proximal gradient descent.py 
Rmsprop tensorflow/python/training/rmsprop.py 
Synchronize Replicas tensorflow/python/training/sync_replicas_optimizer.py 
Optimizer 
—_name 


—_use locking 

+ init 
—_apply_dense 
—_apply_sparse 
+apply_gradients 
+compute_ gradients 


+minimize 
AdadeltaOptimizer GradientDescentOptimizer SyncReplicasOptimizer 
+ init +_init + init 
—_apply_dense —_apply_dense +apply_gradients 
一 _apply_sparse 一 _apply_sparse +compute gradients 
+ get_chief queue runner 
+get init token op 


图 3-16 optimizer 类 与 其 子 类 的 继承 关系 
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3-16 只 列 出 了 optimizer 类 常见 的 成 员 变 量 和 成 员 方法 。_name 属性 为 字符 串 型 ， 表 示 
优化 器 的 名 称 ; _use_locking 属性 为 布尔 型 , 表示 是 否 在 并 发 更 新 模型 参数 时 加 锁 。0ptimizer 
类 已 经 实现 了 minimize、compute_gradients 和 apply_gradients 等 常用 的 顶层 方法 , 其 子 
类 一 般 直 接 继 承 这 3 个 方法 。 但 子 类 必须 实现 各 自 的 _apply_dense 和 _apply_sparse 方法, 它 
们 分 别 表示 使 用 稠密 梯度 值 和 稀 跑 梯度 值 更 新 模型 参数 的 具体 实现 ， 两 者 均 返 回 数据 流 图 上 的 
操作 。 


3.5.3 ”使 用 minimize 方 法 训练 模型 


模型 训练 的 过 程 需要 最 小 化 损失 函数 。 为 了 方便 用 户 快 速 上 手 ，TensorFlow 的 所 有 优化 器 均 
实现 了 用 于 最 小 化 损失 函数 的 minimize 方法 。 该 方法 在 内 部 会 依次 调用 优化 器 的 compute_ 
gradients 和 apply_gradients 方法 。 前 者 计算 模型 所 有 参数 的 梯度 值 ， 后 者 将 梯度 值 更 新 到 
对 应 的 模型 参数 。minimize 方法 的 代码 如 下 所 示 ， 这 里 我 们 对 其 中 的 关键 步 又 加 以 注释 : 


def minimize(self, loss, global_step=None, var_list=None, 
gate_gradients=GATE_OP, aggregation method=None, 
colocate gradients with ops=False, name=None, 
grad_loss=None) : 
# 计算 梯度 ， 得 到 组 合 后 的 梯度 值 与 模型 参数 列表 一 一 grads_and_vars， 
# 即 < 梯 度 ， 参 数 > 键 值 对 列表 
grads_and _vars = self.compute gradients( 
loss, var_list=var_list, gate gradients=gate gradients, 
aggregation_method=aggregation_method， 
colocate gradients with ops=colocate gradients with_ops, 
grad_loss=grad_loss) 
# 从 grads_and_vars 中 取出 非 堆 梯度 值 对 应 的 模型 参数 列表 一 一 vars_with_grad 
vars with grad = [v for g, v in grads_and vars if g is not None] 
# 如 果 没 有 非 替 梯度 值 ， 则 说 明 模 型 计算 过 程 中 出 现 了 问题 
if not vars with_ grad: 
raise ValueError( 
"No gradients provided for any variable, check your graph for ops" 
" that do not support gradients, between variables %s and loss %s." % 
([str(v) for _, v in grads_and_vars], 1o0ss)) 
# 使 用 非 替 梯度 值 更 新 对 应 的 模型 参数 
return self.apply_gradients(grads_and_vars, global_ step=global_step, 
name=name) 


表 3-16 简单 介绍 了 minimize 方法 的 所 有 输入 参数 ,其 中 , global_step 表示 全 局 训练 步 数 。 
因为 模型 训练 是 一 个 不 断 输入 数据 进行 迭代 优化 的 过 程 ， 所 以 我 们 通常 将 填充 数据 、 计 算 梯度 、 
应 用 梯度 更 新 模型 参数 这 个 过 程 称 为 一 步 训练 。 为 了 查看 训练 过 程 中 各 评价 指标 和 模型 参数 的 历 
史 变 化 ， 需 要 以 训练 步 数 为 单位 来 区 分 每 一 步 训 练 结果 。 虽 然 global_step 也 保存 在 变量 中 ， 
但 是 它 不 需要 通过 输入 数据 来 进行 训练 。 因 此 ， 在 创建 global_step 变量 时 ， 需 要 显 式 地 将 
trainable 参数 设置 为 False， 表 示 不 需要 在 训练 过 程 中 自动 计算 其 梯度 值 。minimize 方法 内 
部 在 应 用 梯度 成 功 后 ， 会 将 global_step 变量 的 值 加 1。 通 常 ， 我 们 将 minimize 方法 的 返回 操 
作 命 名 为 train_op 或 train_step， 成 功 执行 此 操作 就 表示 模型 完成 了 一 步 训练 。 
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表 3-16 minimize 方法 的 输入 参数 


参数 名 称 功能 说 明 数据 类 型 
loss 损失 值 Tensor 
global_step 全 局 训练 步 数 ， 随 着 模型 迭代 优化 自 增 Variable 
var_list 待 训练 模型 参数 的 列表 list 
gate_gradients 计算 梯度 和 更 新 参数 模型 时 的 并 行 化 程度 ， 可 选 值 为 GATE OP (默认 Enum 

值 )、GATE_NONE 或 GATE_GRAPH 
aggregation_method 聚集 梯度 值 的 方法 ， 可 选 值 定义 在 AggregatedMethod 类 中 Enum 
colocate_gradients_with_ops 是否 将 梯度 计算 放置 到 对 应 操作 所 在 的 同一 个 设备 ， 黑 认为 否 Boolean 
name 优化 器 在 数据 流 图 中 的 名 称 String 
grad_loss 损失 值 的 梯度 Tensor 
在 上 述 参数 中 ，gate_gradients 对 计算 效率 有 一 定 影响 ， 值 得 用 户 重点 关注 。 用 户 可 以 根 


据 自 身 需 求 设置 gate_gradients 的 取 值 ， 它 的 三 种 不 同 取 值 的 含义 如 下 。 


化 。 该 模式 有 时 会 导 


致 部 分 计算 结果 无 法 复 现 。 


口 6ATE_NONE : 无 同步 。 最 大 化 并 行 执行 效率 ， 将 梯度 计算 和 模型 参数 更 新 过 程 完 全 并 行 


D GATE_OP : 操作 级 同步 。 对 于 每 个 操作 ， 分 别 确保 所 有 梯度 在 使 用 之 前 都 已 计算 完成 。 


当 梯度 计算 依赖 多 个 输入 时 ， 这 种 做 法 能 够 避免 计算 间 的 苋 争 。 

D GATE_GRAPH: 图 级 同步 。 最 小 化 并 行 执行 效率 ,在 任意 梯度 被 使 用 之 前 ， 确 保 所 有 模型 
参数 对 应 的 所 有 梯度 都 已 经 计算 完成 。 

最 佳 实践 


无 论 模型 如 何 设计 ， 最 终 都 需要 使 用 优化 器 来 进行 训练 。 下 面 我 们 以 梯度 下 降 优化 器 为 例 ， 
介绍 使 用 minimize 方法 训练 模型 的 典型 步 又 。 代 码 如 下 所 示 : 


import tensorflow as tf 
# 模型 
X = tf.placeholder(...) 
Y_ = tf.placeholder(... 
tf.Variable(...) 
tf.Variable(...) 
tf.matmul(X, w) + b 
使 用 交叉 粒 作 为 损失 函数 
s = tf.reduce_mean( 
tf.nn.softmax_cross 
# 优化 器 
optimizer = tf.train.Gr 
global_step = tf.Variab 
train_op = optimizer.mi 
with tf.Session() as se 
sess.run(tf.global _va 
for step in xrange(ma 
sess.run(train_op, 


人 


oO 
wm 


) 


_entropy_with logits(labels=Y_, logits=Y)) 


adientDescentOptimizer(learning_rate=6.61) 
le(6，name= 'global_step'，trainable=False) 
nimize(loss, global_step=global_step) 

ss: 

riables_initializer()) 

x_train_steps): 

feed_dict={...}) 
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# 训练 日 志 
if step % 1og_steps == 0: 
final_loss, weight, bias = sess.run([loss, w, b], 
feed_dict={...}) 
print("Step: %d, loss==%.4f, w==%.4f, b==%.4f", 
step, final loss, weight, bias) 


首先 ， 我们 需要 创建 模型 和 定义 损失 函数 ， 并 得 到 对 应 的 损失 值 ( loss )。 然 后 ， 调 用 
GradientDescentoptimizer 类 的 构造 方法 ， 传 人 学 习 率 (learning_rate ) 参数 ， 创 建 梯度 下 
降 优 化 右 实 例 optimizer。 接 着 ,创建 记录 全 局 训练 步 数 的 global_step 变量 ， 在 构造 函数 中 
设置 其 名 称 和 不 可 训练 的 属性 。 在 此 基础 上 。 调 用 optimizer 对 象 的 minimize 方法 , 并 传人 损 
失 值 (loss ) 和 global_step 变量 ， 以 便 创 建 单 步 训练 操作 (train_op )。 在 完成 所 有 变量 定义 
之 后 , 我 们 需要 创建 会 话 , 并 初始 化 所 有 变量 值 , 最 后 , 通过 不 断 执 行 单 步 训练 操作 来 训练 模型 。 
这 里 可 以 设置 一 个 最 大 训练 步 数 或 训练 中 止 条 件 ( 如 准确 率 达 到 90% 或 损失 值 低 于 0.1 区 。 同 
时 ， 也 可 以 定期 地 打印 输出 训练 日 志 ， 以 便于 观察 模型 的 训练 效果 。 


3.5.4 扩展 阅读 : 模型 训练 方法 进 阶 


让 我 们 复 盘 模型 训练 的 最 关键 部 分 一 一 优化 算法 。 上 一 节 介 绍 了 使 用 minimize 方法 训练 模 
型 的 最 住 实践 , 该 方法 具有 简单 易 用 的 特点 , 但 无 法 实现 对 梯度 进行 特定 处 理 的 需求 。 通 过 阅读 
minimize 方法 的 源 代码 , 我 们 发 现 它 内 部 先后 调用 了 compute_gradients 和 apply_gradients 
方法 ， 而 对 梯度 进行 处 理 的 逻辑 恰恰 可 以 位 于 这 两 者 之 间 。 因 此 , 一 次 更 为 通用 的 迭代 优化 过 程 
可 以 分 为 以 下 三 个 步 又。 

(1) 计算 梯度 : 调用 compute_gradients 方法 ,依据 指定 的 策略 求 得 梯度 值 。 

(2) 处 理 梯度 : 用 户 按照 自己 的 需求 处 理 梯度 值 ， 如 进行 梯度 裁剪 和 梯度 加 权 。 


(3) 应 用 梯度 : 调用 apply_gradients 方法 ,将 处 理 后 的 梯度 值 应 用 到 模型 参数 ， 实 现 模 型 
更 新 。 

下 面 分 别 介绍 这 三 个 步骤 的 实现 原理 

1. 计算 梯度 

TensorFlow 的 所 有 原生 优化 器 都 使 用 基 类 optimizer 的 compute_gradients 方法 计算 梯度 ， 
该 方法 的 代码 及 关键 步骤 解释 如 下 : 


def compute gradients(self, loss, var_list=None, 

gate_gradients=GATE_OP， 

aggregation_method=None， 

colocate gradients with ops=False, 

grad_loss=None ) : 

if gate gradients not in [Optimizer.GATE_NONE，Optimizer.GATE_OP， 
Optimizer .GATE_GRAPH]: 
raise ValueError("gate gradients must be one of: Optimizer.GATE_ NONE, " 


O 


3.5 训练 工具 : 优化 器 69 


"Optimizer.GATE_OP, Optimizer.GATE_GRAPH. Not %s" % 
gate_gradients) 
self._assert valid dtypes([1oss]) 
if grad loss is not None: 
self._assert valid dtypes([grad_loss]) 
if var_list is None: 
var_list = ( 
variables.trainable variables() + 
ops.get_collection(ops.GraphKeys.TRAINABLE_RESOURCE_VARIABLES ) ) 
processors = [_get_processor(v) for v in var_list] 
if not var_list: 
raise ValueError("No variables to optimize.") 
var_refs = [p.target() for p in processors] 
# 创建 计算 梯度 的 操作 
grads = gradients.gradients( 
loss, var_refs, grad_ys=grad_loss, 
gate_gradients=(gate_ gradients == Optimizer .GATE_OP), 
aggregation_method=aggregation_method， 
colocate_gradients_with_ops=colocate_gradients_with_ops) 
# 如 果 采 用 GATE_GRAPH 策略 ， 则 为 所 有 计算 梯度 的 操作 添加 控制 依赖 边 ， 
# 以 保证 所 有 梯度 值 在 使 用 前 都 已 经 计算 完毕 
if gate gradients == Optimizer .GATE_GRAPH: 
grads = control_ flow ops.tuple(grads) 
# 创建 梯度 和 模型 参数 表 
grads_and_ vars = list(zip(grads, var_list)) 
self._assert valid dtypes([v for g, v in grads_and vars if g is not None]) 
return grads_and_vars 


在 compute_gradients 方法 的 内 部 实现 中 ,值得 重点 关注 的 是 gradients.gradients 方法 。 
它 的 主要 输入 是 损失 值 和 模型 参数 ， 输 出 是 计算 输入 模型 参数 对 应 梯度 值 的 操作 ( grads )。 这 个 操 
作 实 现 了 梯度 计算 ， 它 能 够 返回 一 个 包含 所 有 变量 对 应 梯度 值 的 张 量 列表 。gradients.gradients 
方法 对 应 图 3-15 中 的 gradients 子 图 , 感 兴 趣 的 读者 可 以 在 tensorflow/python/ops/gradients_impl.py 
文件 中 找到 它 的 定义 。 该 方法 的 原型 如 下 所 示 : 


def gradients(ys, 
XS， 
grad_ys=None， 
name="gradients", 
colocate_ gradients with ops=False, 
gate_gradients=False, 
aggregation method=None) 


计算 出 梯度 后 , compute_gradients 方法 内 部 会 创建 一 个 梯度 和 模型 参数 表 , 表 中 便 是 待 更 
新 的 模型 参数 与 对 应 的 梯度 值 。 此 表 会 作为 方法 返回 值 , 提供 给 用 户 进 行 下 一 步 的 梯度 处 理工 作 。 
2. 处 理 梯 度 
通常 , 我 们 在 训练 模型 时 总 希望 快速 收敛 , 但 实际 情况 却 往往 不 那么 顺利 , 梯度 有 可 能 在 训 
练 过 程 中 变 成 了 无 限 大 或 者 零 值 。 出 现 这 种 情况 时 ， 有 可 能 是 因为 输入 数据 本 身 不 合法 ,也 有 可 
能 是 除法 或 求 导 运算 的 精度 限制 导致 的 。 换 名 话说 ， 即 使 模型 设计 没有 问题 ， 仍 然 存 在 训练 无 法 
顺利 进行 的 情况 。 为 了 回避 梯度 爆炸 或 梯度 消失 问题 , 我 们 可 以 对 梯度 值 进行 一 些 处 理 , 再 更 新 
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到 模型 参数 。 例如, 可 以 实施 梯度 裁剪 、 梯 度 加 权 、 模 型 平均 ( model averaging ) 和 批 规范 化 (batch 
normalization ) 等 。 

TensorFlow 为 用 户 提 供 了 许多 内 置 的 梯度 处 理 方法 ， 以 便 用 户 快速 实现 常见 的 梯度 处 理 需 
求 。 表 3-17 给 出 了 这 些 方法 的 功能 说 明 。 同 时 ，TensorFlow 也 支持 自 定 义 梯度 处 理 操作 ， 以 此 
来 支持 更 加 个 性 化 的 需求 。 


表 3-17 TensorFlow 内 置 的 梯度 处 理 方法 


方 ”法 功能 说 明 
tf.clip by _value(t, clip value min, 将 梯度 值 t 截断 到 [min， max] 区 间 内 ， 确保 梯度 的 最 大 值 和 
clip_value_max，name=None) 最 小 值 分 别 为 max 和 min 
tf.clip by_norm(t, clip norm, axes=None, 使 用 L2 范式 规范 化 梯度 t 的 最 大 值 为 clip_norm， 返回 七 * 
name=None) clip_norm / 12norm(t) 
tf.clip_by_average_norm(t，clip_norm， 使 用 平均 L2 范式 规范 化 梯度 t 的 最 大 值 为 clip_norm， 返 区 
name=None) t * clip norm / l2norm avg(t) 
tf.clip_by_global_norm(t_list, clip_norm, 根据 全 局 规范 化 的 梯度 值 列 表 t_list 的 加 和 进行 裁剪 ， 返 区 
use_norm=None, name=None) t_list[i] * clip norm / max(global norm, clip_norm) 
tf.global norm(t list, name=None) 计算 t_list 中 所 有 梯度 的 全 局 范 数 ， 返 回 global_norm = 


sqrt(sum([l2norm(t)**2 for 七 in t list])) 


下 面 我 们 以 使 用 tf.clip_by_nornm 方法 对 Adam 优化 器 计算 出 的 梯度 值 进行 裁剪 为 例 ， 介 
绍 TensorFlow 中 梯度 处 理 的 典型 步骤。 代码 如 下 所 示 : 


import tensorflow as tf 

。.## 创建 模型 
optimizer = tf.train.AdamOptimizer(learning_rate, betal=0.5) 
grads_and_vars = optimizer.compute_ gradients(loss) 
for i, (g, v) in enumerate(grads_and_vars): 

if g is not None: 

grads_and_vars[i] = (tf.clip_by_norm(g，5)，V) # 裁剪 梯度 

train_op = optimizer.apply_gradients(grads_and_vars) 

. # 创建 会 话 ， 训 练 模型 


在 本 例 中 ,创建 模型 、 定 义 Adam 优化 器 及 计算 梯度 的 方法 参考 了 上 一 节 的 最 佳 实践 。 取 得 
梯度 值 和 模型 参数 列表 grads_and_vars 之 后 ， 可 以 使 用 tf.clip_by_norm 方法 对 列表 中 所 有 
非 零 梯 度 值 进 行 裁剪 和 更 新 ， 以 实现 L2 范式 规范 化 。 在 参数 更 新 之 后 ， 我 们 调用 Adam 优化 器 
的 apply_gradients 方法 ， 传 人 新 的 梯度 值 和 模型 参数 列表 。 后 续 会 话 创建 、 模 型 训练 的 步 又 
同 前 例 ， 并 无 差异 。 

3. 应 用 梯度 


作为 minimize 方法 内 部 实现 的 后 半 部 分 ,apply_gradients 方法 的 主要 输入 是 处 理 后 的 梯 
度 值 与 对 应 模型 参数 组 合 而 成 的 列表 ( grads_and_vars )， 输 出 是 用 于 更 新 所 有 模型 参数 的 操作 
(apply_udpates )。 下 面 给 出 了 基 类 optimizer 中 apply_gradients 方法 的 定义 ， 我 们 结合 代 
码 分 析 它 的 工作 原理 : 
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def apply_gradients(self, grads_and vars, global_step=None, name=None): 
grads_and_vars = tuple(grads_and_vars) 
if not grads_and_vars : 
raise ValueError( "No variables provided.") 
converted_grads_and vars = [] 
for g, v in grads_and_vars: 
if g is not None: 
try: 
gg = ops.convert to tensor or_indexed_ slices(g) 
except TypeError: 
raise TypeError( 
"Gradient must be convertible to a Tensor" 
" or IndexedSlices, or None: %s" % g) 
if not isinstance(g, (ops.Tensor, ops.IndexedSlices)): 
raise TypeError( 
"Gradient must be a Tensor, IndexedSlices, or None: %s" % g) 
p = _get_processor(v) 
converted_ grads_and_vars.append((g, v, p)) 
converted_ grads_and_ vars = tuple(converted grads_and_vars) 
var_list = [v for g, v, _ in converted grads _and vars if g is not Nonel] 
if not var_list: 
raise ValueError("No gradients provided for any variable: %s." % 
([str(v) for _, _, v in converted grads_and_vars],)) 
with ops.control_dependencies(None): 
self._create_slots(var_list) 


update _ ops = [] 
with ops.name_scope(name, self. name) as name: 


self._prepare() 
for grad, var, processor in converted grads_and_vars: 
if grad is None: 
continue 
with ops.name_scope("update " + var.op.name), ops.colocate with(var): 
update_ops.append(processor.update op(self, grad)) 


if global_step is None: 
apply_updates = self. finish(update ops, name) 
else: 
with ops.control dependencies([self. finish(update_ ops, "update")]): 
with ops.colocate with(global_step): 
apply_updates = state ops.assign add(global_ step, 1, name=name).op 


train_op = ops.get collection ref(ops.GraphKeys.TRAIN_OP) 
if apply_updates not in train _ op: 
train_op.append(apply_updates) 


return apply_updates 
apply_gradients 方法 接受 经 过 处 理 的 梯度 和 模型 参数 列表 grads_and_vars 作为 输入 。 
E 后 的 梯度 值 可 能 不 是 张 量 类 型 了 , 但 是 程序 仍然 需要 使 用 张 量 类 型 来 表示 梯度 ,以 此 来 继续 
数据 流 图 。 为 此 ，apply_gradients 方法 内 部 首先 需要 将 梯度 值 转换 为 张 量 类 型 。 如 果 能 
成 功 转换 ， 那 么 将 其 与 对 应 的 模型 参数 保存 到 converted_grads_and_vars 列表 。 随 后 ,将 
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converted_grads_and_vars 列表 转换 为 元 组 类 型 ， 使 其 能 够 支持 列表 推导 式 运 算 。 


接着 ，apply_gradients 方法 逐 对 遍历 converted_grads_and_vars 中 的 梯度 值 和 模型 参 
数 ， 根 据 产生 模型 参数 的 操作 名 称 找到 对 应 参数 的 更 新 操作 ， 并 将 其 追加 到 更 新 操作 汇总 表 
update_ops 中 。 在 汇总 所 有 的 更 新 操作 后 ,使 用 optimizer 的 _finish 方法 增加 显 式 的 控制 依 
赖 。 根 据 数据 流 图 中 的 拓扑 结构 ， 程 序 会 先 执行 apply_updates 依赖 的 所 有 输入 节点 ， 即 更 新 
操作 汇总 表 update_ops 中 的 所 有 更 新 操作 。 在 并 行 更 新 模型 参数 的 过 程 中 , 0ptimizer._finish 
方法 能 够 确保 更 新 操作 按照 拓扑 序 正确 执行 。 它 的 定义 如 下 : 


def _finish(self, update ops, name_scope): 
return control _ flow ops.group(*update _ ops, name=name_scope) 


换 句 话说 ， 在 apply_updates 操作 执行 之 前 ，update_ops 中 的 所 有 操作 都 已 经 执行 完成 ， 
以 确保 所 有 模型 参数 都 已 更 新 成 功 。 如 果 global_step 变量 不 为 空 ,执行 完 update_ops 中 的 所 有 
操作 后 ，global_step 变量 值 会 被 加 1， 以 此 作为 训练 步 数 的 记录 。 最 后 ，apply_updates 成 为 单 
步 训 练 的 计算 节点 。 即 当 用 户 成 功 执行 一 次 apply_updates 操作 时 ， 模 型 就 完成 了 一 步 训练 。 

其 中 , 模型 参数 更 新 操作 在 内 部 调用 了 优化 器 的 _apply_dense 或 _apply_sparse 方 法, 这 
两 个 方法 分 别 实现 了 使 用 稠密 梯度 值 和 稀 琉 梯度 值 更 新 对 应 模型 参数 的 逻辑 。 每 种 优化 器 的 更 新 
策略 千差万别 ， 基 类 optimizer 无 法 实现 通用 的 更 新 策略 。 因 此 ， 它 只 是 简单 地 定义 了 这 两 个 
成 员 方法 ， 并 为 其 添加 了 NotImplementedError 异常 ， 以 确保 子 类 在 继承 时 必须 实现 相应 的 方 
法 。 如 果 用 户 想 要 自 定 义 优 化 器 ， 则 需要 分 别 实现 这 两 个 成 员 方 法 。 

综 上 ,模型 训练 的 关键 是 对 优化 器 的 学 习 和 掌握 。 本 节 中 , 我 们 从 理论 指导 和 实践 落地 这 两 
个 角度 分 别 介绍 了 TensorFlow 的 训练 工具 一 一 优化 器 。 在 使 用 优化 器 训练 模型 时 ， 我 们 可 以 选 
择 简 单 易 用 的 minimize 方法 ， 也 可 以 调用 compute_gradients 和 apply_gradients 方法 ,并 
插入 梯度 处 理 逻 辑 来 增加 灵活 性 。 


3.6 一 元 线性 回归 模型 的 最 佳 实践 

本 节 以 最 佳 实践 的 形式 介绍 如 何 利 用 张 量 、 操 作 、 优 化 器 和 会 话 创 建 并 训练 简单 的 一 元 线性 
回归 模型 。 读 者 通过 详细 阅读 各 核心 步骤 的 典型 实现 , 结合 前 面 5 节 的 知识 ， 能够 更 加 深入 地 理 
解 TensorFlow 的 基本 概念 和 使 用 方法 。 

在 统计 学 中 ， 线 性 回归 ( linear regression ) 是 一 种 回归 分 析 方 法 ， 它 利用 基于 最 小 二 乘 函 数 
的 回归 方程 对 一 个 或 多 个 自 变量 和 因 变 量 之 间 的 关系 进行 建 模 。 只 有 一 个 自 变 量 的 情况 称 为 简单 
回归 ， 大 于 一 个 自 变 量 的 情况 叫 作 多 元 回归 或 YX 元 回归 。 一 般 情 况 下 ， 具 有 N 个 自 变 量 的 N 元 
线性 回归 模型 的 形式 化 定义 如 下 : 

Y WIX+ b WIX1 | WX2 EE WNXN tb 

其 中 ,WW 是 权重 矩阵 ，b 是 偏 置 量 , 是 自 变 量 , 了 是 因 变量 。N 元 线性 回归 模型 描述 了 NN 个 自 
变量 与 1 个 因 变 量 之 间 的 线性 关系 。 当 N= 1 时 ， 即 : 
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Y= WX+b=wxit+b 
3-17 展示 了 一 元 线性 回归 模型 的 数据 流 图 表达 形式 。 其 中 ， 前 向 图 的 结构 是 权重 和 矩阵 球 
与 因 变 量 半 相 乘 ， 再 加 上 偏 置 5， 得 到 推理 值 Y; 后 向 图 则 基于 梯度 下 降 优 化 算法 ， 使 用 优化 器 
计算 出 的 梯度 值 直 接 更 新 权重 矩阵 到 和 偏 置 p。 
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图 3-17 一 元 线性 回归 模型 的 数据 流 图 表达 形式 

使 用 TensorFlow 训练 该 模型 的 典型 过 程 可 以 分 为 以 下 8 个 步 又 : 

(1) 定义 超 参数 ; 

(2) 输入 数据 ; 

(3) 构建 模型 ; 

(4) 定义 损失 函数 ; 

(5) 创建 优化 需 ; 

(6) 定义 单 步 训练 操作 ; 

(7) 创建 会 话 ; 

(8) 迭代 训练 。 

下 面 分 别 介绍 每 个 步 又 ， 然 后 给 出 可 视 化 模型 训练 过 程 的 方法 供 读者 参考 。 

1. 定义 超 参数 

超 参 数 是 指 模型 训练 过 程 中 使 用 的 配置 参数 。 超 参数 的 取 值 往往 影响 模型 的 收敛 速度 或 预测 
精度 。 常 见 的 超 参数 有 学 习 率 、 隐 藏 层 神经 元 个 数 、 批 数据 个 数 和 正则 项 系数 等 。 通 常情 况 下 ， 
我 们 会 参考 经 典 模 型 训练 的 经 验 数值 设置 超 参 数 ， 比 如 将 梯度 下 降 优 化 器 的 学 习 率 设 为 0.01: 

# 学 习 率 

learning_rate = 6.61 


# 最 大 训练 步 数 
max_train_steps = 1666 
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2. 输入 数据 

在 有 监督 的 机 需 学 习 中 ， 数 据 集 一 般 划分 为 训练 集 (training set )、 验 证 集 ( validation set ) 
和 测试 集 (test set )。 通 常 ， 训 练 集 用 于 训练 模型 或 确定 模型 参数 ; 验证 集 用 于 控制 模型 复杂 度 
或 确定 模型 结构 ; 测试 集 用 于 测试 模型 的 性 能 和 泛 化 能 力 。 本 例 构 造 了 17 对 训练 数据 : 

# 构造 训练 数据 

train X = np.array([[3.3],[4.4],[5.5],[6.71],[6.93],[4.168],[9.779],[6.182],[7.59],[2.167]， 

[7.642],[16.791],[5.313],[7.997],[5.654],[9.27],[3.1]]，dtype=np.float32) 
train Y = np.array([[1.7],[2.76],[2.69],[3.19],[1.694],[1.573],[3.366],[2.596],[2.53]， 


[1.221],[2.827],[3.465],[1.65],[2.984],[2.42],[2.94],[1.3]]，dtype=np.float32) 
total_samples = train_X.shape[6] 


因为 一 元 线性 回归 模型 的 结构 非常 简单 ， 所 以 不 再 单独 构造 验证 集 和 测试 集 。 

3. 构建 模型 

构建 模型 是 指 编 写 数据 流 图 对 应 的 代码 ， 描 述 算法 模型 结构 的 过 程 。 对 于 训练 数据 的 属性 ， 
可 以 使 用 占 位 符 描 述 。 本 例 中 的 x 是 单 精度 浮 点 数 ， 形 状 定义 为 [None，1] ， 其 中 None 表示 支 
持 任 意 个 数 的 输入 ，1 表示 数据 是 一 维 的 。 对 于 变量 和 计算 操作 ， 则 使 用 相应 的 节点 构造 方法 或 
全 局 函数 定义 。 模 型 参数 W 是 形状 为 [1，1] 的 单 精度 浮 点 数 和 矩阵 ， 偏 置 量 b 是 单 精度 浮 点 数 标 
量 , 它们 分 别 使 用 正 态 分 布 和 零 值 进行 初始 化 。 将 X 和 NM 都 定义 为 矩阵 ,是 为 了 方便 将 所 有 的 训 
练 数据 一 次 性 填充 以 进行 推理 计算 。 推 理 值 Y 的 定义 源 于 一 元 线性 回归 模型 的 形式 化 定义 。 需要 
注意 的 是 ， 这 行 语句 属于 声明 式 的 、 用 于 构图 的 符号 表达 式 ， 而 非 命令 式 的 、 立 即 执行 的 代码 。 
相关 代码 如 下 : 

# 输入 数据 

X = tf.placeholder(tf.float32, [None, 1]) 

# 模型 参数 

W = tf.Variable(tf.random normal([1, 1]), name="weight") 

b = tf.Variable(tf.zeros([1]), name="bias") 


# 推理 值 
Y = tf.matmul(X, W) + b 


4. 定义 损失 函数 
接着 ,我 们 使 用 了 描述 训练 数据 针对 应 的 实际 值 。 这 里 采用 均 方 差 作为 模型 训练 的 损失 函 
数 。 均 方差 具有 形式 简单 、 计 算 量 小 等 特点 ， 它 的 形式 化 定义 如 下 : 


1 n 
loss =MSE=—》 (7 -7Y,) 
n 


i=] 


相关 代码 如 下 : 


# 实际 值 

Y_ = tf.placeholder(tf.float32，[None，1]) 

# 均 方 差 

loss = tf.reduce_ sum(tf.pow(Y-Y_, 2))/(total_samples) 
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5. 创建 优化 器 

一 元 线性 回归 模型 比较 简单 ， 本 例 直 接 使 用 随机 梯度 下 降 优化 器 计算 梯度 值 : 
# 随机 梯度 下 降 

optimizer = tf.train.GradientDescentOptimizer(learning_rate) 


6. 定义 单 步 训练 操作 


这 里 将 单 步 训练 操作 (train_op ) 设置 为 使 用 随机 梯度 下 降 优化 器 的 minimize 方法 计算 和 
应 用 梯度 。minimize 方法 在 内 部 实现 了 梯度 计算 和 模型 更 新 的 过 程 。 每 当 用 户 在 会 话 中 成 功 执 
行 一 次 单 步 训练 操作 ， 就 使 得 前 向 图 和 后 向 图 依次 执行 了 一 遍 。 相 关 代码 如 下 : 

# 最 小 化 损失 值 

train_op = optimizer.minimize(1loss) 


7. 创建 会 话 


定义 好 算法 模型 相关 的 对 象 之 后 ， 需 要 定义 TensorFlow 运行 时 框架 相关 的 对 象 。 对 于 本 例 
这 种 简单 的 程序 , 只 需要 定义 用 于 维护 训练 上 下 文 的 会 话 对 象 。 这 里 使 用 session 类 的 构造 方法 
创建 会 话 ， 然 后 调用 global_variables_initializer 方 法 初始 化 全 局 变量 : 


with tf.Session() as sess: 
# 初始 化 全 局 变量 
sess.run(tf.global variables initializer()) 


8. 迭代 训练 


前 面 我 们 已 经 设 定 模型 总 共 迭 代 训 练 1000 步 。 每 一 步 训 练 都 需要 填充 全 部 17 对 训练 数据 。 
因为 模型 参数 W 和 b 会 不 断 更 新 , 所 以 同样 的 训练 数据 集 上 每 一 步 计 算出 的 损失 值 都 不 同 。 在 示 
例 代码 中 ,我 们 让 程序 定期 输出 日 志 ， 以 便 观察 参数 和 损失 值 的 变化 。 训 练 结束 之 后 , 计算 并 输 
出 最 终 的 模型 参数 。 相 关 代码 如 下 : 


print("Start training:") 
for step in xrange(max_train_steps): 
sess.run(train op, feed dict={X: train xX, Y_: train_Y}) 
# 每 陪 log_step 步 打印 一 次 日 志 
if step % log_ step == 6: 
c = sess.run(loss, feed dict={X: train X, Y_:train_Y}) 
print("Step:%d, loss==%.4f, W==%.4f, b==%.4f" % 
(step, c, sess.run(W), sess.run(b))) 
# 计算 训练 完毕 的 模型 在 训练 集 上 的 损失 值 ， 并 将 其 作为 指标 输出 
final_loss = sess.run(loss, feed dict={X: train XxX, Y_: train_Y}) 
# 计算 训练 完毕 的 模型 参数 W 和 上 b 
weight, bias = sess.run([W, b]) 
print("Step:%d, loss==%.4f, W==%.4f, b==%.4f" % 
(max_train_steps, final loss, sess.run(W), sess.run(b))) 
print("Linear Regression Model: Y==%.4f*X+%.4f" % (weight, bias)) 


9. 模型 可 视 化 
在 Jupyter Notebook 等 Python 交互 式 环境 下 , 我 们 可 以 使 用 matplotlib 库 实现 模型 的 可 视 化 。 
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具体 步骤 为 : 首先 ， 执 行 4matplotlib 命令 ， 初 始 化 matplotlib 后 端 。 然 后 ， 调 用 plt.plot 方 
法 ， 设 置 横 纵 坐标 的 指标 和 属性 。 最 后 ， 调 用 plt .show 方法 绘制 图 形 。 相 关 代码 如 下 : 


# 初始 化 matplotlib 后 冯 

%matplotlib 

# 根据 训练 数据 X 和 Y， 添 加 对 应 的 红色 圆 点 

plt.plot(train X, train_Y, 'ro', label='Training data') 

# 根据 模型 参数 和 训练 数据 ， 添 加 蓝 色 (默认 色 ) 拟 合 直线 
plt.plot(train _X，weight * train X + bias, label='Fitted line') 
# 添加 图 例 说 明 

plt.1legend() 

# 绘制 图 形 


plt. show() 
输出 结果 如 图 3-18 所 示 。 
全 有 由 外 Figure 1 
一 Fitted line 
全 |/@|©| 十 | 名 | 豆 | 加 | 
图 3-18 使 用 matplotlib 泻 染 的 一 元 线性 回归 模型 
3.7 小 结 


TensorFlow 的 核心 编程 范式 是 基于 声明 式 编程 的 数据 流 图 。 数 据 流 图 由 节点 和 有 向 边 组 成 ， 
能 够 有 效 表 达 机 器 学 习 和 深度 学 习 领 域 的 各 类 算法 模型 ,具有 代码 可 读 性 强 、 支 持 引 用 透明 、 提 
供 预 编译 优化 能 力 等 优点 。 从 实现 的 角度 来 看 ， 一 个 典型 的 TensorFlow 应 用 程序 包含 数据 载体 、 
模型 载体 、 运 行 环境 和 训练 工具 这 4 个 部 分 。 张 量 是 TensorFlow 的 数据 载体 , 它 可 以 描述 数据 流 
图 上 流动 的 任意 类 型 和 形状 的 数据 ， 具 有 极 高 的 灵活 性 。 操 作 是 TensorFlow 的 模型 载体 ， 计 算 
操作 、 变 量 操 作 和 占 位 符 操作 分 别 描述 了 模型 的 计算 拓扑 、 模 型 参数 和 数据 集 。 会 话 是 TensorFlow 
的 运行 环境 ， 它 连接 后 端 执行 引擎 ， 为 数据 流 图 的 执行 维护 计算 资源 和 存储 资源 。 优 化 需 是 
TensorFlow 的 训练 工具 ， 它 为 用 户 提供 了 多 种 梯度 计算 和 模型 更 新 的 方法 。 掌 握 这 些 基 础 概念 、 
习惯 声明 式 编程 思维 ， 是 正确 地 使 用 TensorFlow 开发 应 用 的 前 提 。 
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中 经 网 络 的 复兴 和 深度 学 习 的 崛起 离 不 开 大 数据 的 推动 。 对 于 我 们 这 个 时 代 的 机 器 学 习 模 
型 ， 数 据 是 一 切 的 基础 。 没 有 真实 而 有 效 的 数据 支撑 ， 再 精妙 的 算法 也 会 黯然 失色 ,模型 设计 便 
如 同 纸上谈兵 。 因 此 ， 读 者 在 学 习 TensorFlow 模型 开发 方法 的 同时 ， 很 有 必要 掌握 其 数据 处 理 
方法 。TensorFlow 主要 涉及 三 类 数据 ， 分 别 是 输入 数据 集 、 模 型 参数 和 命令 行 参数 。 其 中 ,输入 
数据 集 指 用 于 模型 训练 、 验 证 和 测试 的 数据 集合 。 模 型 参数 主要 指 模型 算法 涉及 的 权重 值 和 偏 置 
值 等 。 命 令 行 参 数 则 指 用 户 启 动 TensorFlow 程序 时 输入 的 可 选项 ， 包 含 模型 超 参数 和 集群 参数 
等 。 本 章 将 依次 介绍 以 上 三 类 数据 的 处 理 流 程 ， 具 体 包 括 数据 的 输入 、 使 用 、 输 出 和 存储 等 方 
法 ， 旨 在 帮助 读者 理解 TensorFlow 数据 处 理 模块 的 用 法 和 原理 ， 从 而 使 得 开发 出 的 应 用 更 具 实 
用 价值 。 


4.1 输入 数据 集 


用 户 处 理 输入 数据 集 的 典型 流程 是 : 首先 将 输入 数据 集 从 文件 系统 读 取 到 内 存 中 , 然后 将 其 
转换 为 模型 需要 的 输入 数据 格式 ,接着 以 某 种 方式 传人 数据 流 图 , 继而 开始 真正 的 模型 训练 过 程 。 
输入 数据 集 一 般 被 存储 在 各 种 类 型 的 文件 系统 中 , 如 本 地 文件 系统 、 共 享 文件 系统 和 分 布 式 文件 
系统 等 。 根 据 文件 系统 类 型 和 输入 数据 集 的 大 小 ， 我 们 推荐 如 下 两 种 不 同 的 数据 读 取 方 法 。 

口 大 数据 集 (如 ImageNet ) 一 般 由 大 量 数据 文件 组 成 。 因 为 数据 规模 太 大 ， 所 以 无 法 一 次 

性 全 部 加 载 到 内 存 。 于 是 ， 用 户 只 能 在 每 一 步 训 练 时 加 载 数 据 ， 这 将 阻塞 模型 的 计算 任 
务 。 为 了 减 小 数据 读 取 对 模型 训练 效率 的 有 影响， 我 们 可 以 使 用 多 线程 并 行 地 读 取 数据 和 
训练 模型 。 

口 小 数据 集 (如 MNIST ) 可 能 仅 包含 一 个 文件 ， 因 此 用 户 可 以 在 模型 训练 开始 前 一 次 性 将 

其 加 载 到 内 存 处 理 。 本 节 依 次 讲解 并 行 读 取 数 据 、 创 建 批 样 例 数 据 ， 以 及 填充 数据 节点 
的 方法 ， 然 后 介绍 CIFAR-10 和 MNIST 数据 集 及 其 用 例 。 


4.1.1 使 用 输入 流水 线 并 行 读 取 数 据 
大 数据 集 一 般 指 无 法 一 次 性 加 载 到 内 存 中 进行 处 理 的 数据 集 ， 如 ImageNet 图 像 分 类 数据 集 


jk 
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( 约 为 140GB )。 当 处 理 如 此 规模 的 大 数据 集 时 ，TensorFlow 提供 了 以 输入 流水 线 方式 从 多 个 文件 
中 并 行 读 取 数据 的 方法 , 这 使 得 模型 训练 所 需 的 数据 能 够 实时 填充 进 数 据 流 图 。 该 方法 的 核心 思 
想 是 实现 多 个 数据 缓冲 区 以 确保 任何 时 刻 内 存 中 都 有 数据 可 以 填充 进 数据 流 图 。 图 4-1 展示 了 一 


个 典型 的 输入 流水 线 并 行 读 取 数据 的 工作 流程 ， 我 们 认为 可 以 将 该 流程 分 为 以 下 4 个 关键 步 又 : 
(1) 创建 文件 名 列表 ; 
(2) 创建 文件 名 队列 ; 
(3) 创建 Reader 和 Decoder; 
(4) 创建 样 例 队列 。 
文件 名 列表 文件 名 队列 样 例 队列 


Reader0 
A 


[| B | 
Shuffle 江 
~ C 


enqueue_many dequeue enqueue 
图 4-1 使 用 输入 流水 线 并 行 读 取 数据 的 工作 流程 


理解 整个 工作 流程 的 关键 是 理解 两 个 队列 : 文件 名 队列 和 样 例 队列 。 因 为 模型 训练 过 程 不 止 
一 次 遍历 整个 数据 集 , 所 以 文件 名 队列 为 程序 读 取 数据 文件 提供 了 一 个 缓冲 区 。 在 将 文件 名 传人 
文件 名 队列 时 ,程序 打 乱 了 文件 名 的 顺序 , 增加 了 输入 数据 的 随机 性 。 又 因为 程序 需要 向 数据 流 
中 持续 不 断 地 填充 符合 特定 数据 属性 的 样 例 ， 所 以 样 例 队列 为 填充 数据 流 图 提供 了 一 个 缓冲 
区 ， 使 得 每 一 步 训 练 都 能 够 实时 地 获取 到 输入 样 例 。 下 面 介 绍 每 一 步 流 程 的 典型 实现 方法 。 
1. 创建 文件 名 列表 
文件 名 列表 是 指 组 成 输入 数据 集 的 所 有 文件 的 名 称 构成 的 列表 , 它们 可 能 是 本 地 文件 系统 上 
的 文件 位 置 ， 也 可 能 是 共享 文件 系统 或 分 布 式 文件 系统 上 的 统一 资源 标志 符 ( URI )。 用 户 需 要 确 
保 TensorFlow 程序 有 权限 访问 URI 标 识 的 文件 。 这 里 我 们 推荐 下 面 两 种 创建 文件 名 列表 的 方法 。 
口 使 用 Python 列表。 如果 文 件 名 的 个 数 不 多 ， 或 文件 命名 遵循 某 种 规则 ， 那 么 用 户 可 以 直 
接 使 用 Python 列表 存储 文件 名 ， 比 如 ["filee.csv"，"filel.csv"] 或 者 [("file%d. 
csv" % i) for i in xrange(166)]。 
口 使 用 tf.train.match_filenames_once 方 法 。 该 方法 在 数据 流 图 中 创建 一 个 获取 文件 名 
列表 的 操作 ， 它 输入 一 个 文件 名 列表 的 匹配 模式 ， 返 回 一 个 存储 了 符合 该 匹配 模式 的 文 
件 名 列表 变量 。 在 初始 化 全 局 变量 时 ， 该 文件 名 列表 变量 也 会 被 初始 化 。 
2. 创建 文件 名 队列 


我 们 使 用 tf .train.string_input_producer 方法 创建 文件 名 队列 ， 它 的 输入 是 前 面 创建 
的 文件 名 列表 , 输出 是 一 个 先 人 先 出 (FIFO ) 的 文件 名 队列 。 通 常 ， 我 们 称 完整 遍历 一 次 输入 数 
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据 集 为 模型 的 一 个 训练 周期 , 而 训练 模型 需要 反复 遍历 整个 输入 数据 集 , 以 不 断 检验 更 新 的 模型 参 
数 是 否 能 够 更 好 地 表达 训练 数据 的 潜在 模式 。 用 户 可 以 通过 tf.train.string_input_producer 
方法 的 输入 参数 num_epochs 设置 模型 的 最 大 训练 周期 数 。 但 是 在 每 一 次 遍历 数据 集 时 ， 我 们 希 
望 输入 样本 的 顺序 有 所 不 同 ， 通 过 增加 一 些 随机 因素 减 小 模型 的 过 拟 合 。 因 此 ， 我 们 可 以 将 
tf.train.string_input_producer 方法 的 输入 参数 shuffle 设置 为 True， 此 时 程序 便 能 打 乱 
每 个 训练 周期 的 文件 名 顺序 。 同 时 ，TensorFlow 保证 打 乱 文件 名 顺序 后 仍然 采用 均匀 抽样 ， 避 人 免 
了 用 户 自己 实现 文件 名 乱 序 时 可 能 造成 的 欠 采 样 或 过 采样 的 问题 。 如 图 4-1 所 示 ， 文 件 名 列表 中 
的 文件 名 顺序 原本 是 ABC , 乱 序 后 输入 文件 名 队列 中 的 顺序 是 ACB 和 CAB。tf.train.string_ 
input_producer 方法 的 原型 如 下 : 


tf.train.string_ input_producer(string tensor, num epochs=None, shuffle=True, seed=None, 
capacity=32, shared_name=None, name=None, cancel_ op=None) 


表 4-1 列 出 了 该 方法 的 所 有 输入 参数 ， 它 们 均 可 以 作为 创建 文件 名 时 的 配置 项 。 


表 4-1 tf.train.string_input_producer 方法 的 输入 参数 


参数 名 称 功能 说 明 
string_tensor 存储 文件 名 列表 的 字符 串 张 量 
num_epochs 最 大 训练 周期 
shuffle 是 否 打 乱 文件 名 顺序 
seed 随机 化 种 子 ， 当 shuffle 等 于 True 的 时 候 生 效 
capacity 文件 名 队列 容量 
shared_name 多 个 会 话 间 共 享 的 文件 名 队列 名 称 
name 创建 文件 名 队列 操作 的 名 称 
cancel op 取消 队列 的 操作 


3. 创建 Reader 和 Decoder 


Reader 的 功能 是 读 取 数 据 记 录 ，Decoder 的 功能 是 将 数据 记录 转换 为 张 量 格式 。Reader 和 
Decoder 的 类 型 与 数据 文件 格式 相关 ， 表 4-2 列 出 了 TensorFlow 推荐 的 3 种 数据 文件 格式 及 其 对 
应 的 Reader 和 Decoder 类 型 。 我 们 使 用 Reader 和 Decoder 的 典型 流程 是 : 首先 ,创建 输入 数据 
文件 对 应 的 Reader。 然 后 ， 从 文件 名 队列 中 取出 文件 名 。 接 着 ， 将 它 传 人 Reader 的 read 方法 ， 
后 者 返回 形 如 (输入 数据 文件 ， 数 据 记 录 ) 的 元 组 。 最 后 ， 使 用 对 应 的 Decoder 操作 ， 将 数据 记录 
中 的 每 一 列 数据 都 转换 为 张 量 格式 。 

表 4-2 TensorFlow 推荐 的 3 种 数据 文件 格式 


文件 格式 Reader 类 型 Decoder 类 型 
CSV 文件 tf.TextLineReader tf.decode csv 
TFRecords 文件 tf.TFRecordReader tf.parse single example 


自由 格式 文件 tf.FixedLengthRecordReader tf.decode_ raw 
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下 面 分 别 介绍 这 3 种 格式 数据 文件 的 典型 处 理 流程 。 
e@ CSV 文件 


字符 分 隔 值 (Comma-Separated Values, CSV ) 文件 以 纯 文本 形式 存储 表格 数据 。 虽然 RFC 4180 
对 CSV 文件 有 一 些 基础 性 描述 ,但 是 CSV 并 没有 通用 的 法 定 标 准 。 不 过 这 并 不 妨碍 CSV 文件 
事实 标准 的 形成 。 目 前 被 大 部 分 人 接受 的 标准 是 CSV 文件 由 多 条 数据 记录 组 成 ， 记 录 间 以 某 种 
换行 符 分 隔 。 每 条 记录 由 多 个 字段 组 成 , 字段 间 通 常 以 制 表 符 或 逗号 分 隔 。 所 有 记录 拥有 完全 相 
同 的 字段 序列 。 许 多 数据 库 都 以 CSV 文件 格式 作为 存储 数据 的 文件 格式 。 假 设 我 们 需要 读 取 一 
张 记录 收入 支出 的 表格 数据 ,各 字段 如 表 4-3 所 示 ,存储 该 表格 数据 的 文件 为 stat0.csv 和 statl.csv。 


表 4-3 ”记录 收入 支出 的 表格 数据 示例 


id age income outgo 
1 24 2048.0 1024.0 
2 48 4096.0 2048.0 


对 于 stat0.csv 和 statl.csv 文件 , 一 条 数据 记录 包含 4 个 字段 一 一 id、age、income 和 outgo， 
其 中 字段 间 有 分 隅 符 严 格 区 分 。 下 面 看 看 如 何 读 取 上 述 CSV 文件 中 的 数据 : 


# 创建 文件 名 队列 filename_queue 

filename_queue = tf.train.string input_producer(['statQ@.csv', 'stati1.csv']) 

# 创建 读 取 CSV 文件 的 TextLineReader 

reader = tf.TextLineReader() 

# 从 文件 名 队列 中 取出 CSV 文件 中 的 一 条 数据 记录 Value 

_, Value = reader.read(filename_queue) 

# 设置 数据 记录 的 默认 值 

record defaults = [[6], [6], [8.6], [6.6]] 

# 使 用 decode_csv 方法 将 数据 记录 的 每 个 字段 都 转换 为 特征 张 量 

id, age, income, outgo = tf.decode_csv(value， 
record_defaults=record_defaults) 


# 将 所 有 特征 张 量 组 合 在 一 起 形成 一 条 记录 
features = tf.stack([id, age, income, outgo]) 


除了 使 用 read 方法 每 次 读 取 一 行 数据 记录 外 ， 还 可 以 使 用 read_up_to 方法 一 次 读 取 多 条 
数据 。 它 的 原型 是 read_up_to(queue，num_records，name=None) ， 通 过 设置 num_records 参 
数 可 以 显 式 指定 程序 一 次 读 取 的 数据 记录 数量 。 此 外 ， 我 们 为 decode_csv 方法 设置 了 
record_ defaults 参数 ， 它 的 作用 是 在 某 些 字 段 数 据 不 合法 或 不 存在 时 ， 为 该 字段 填充 
record_ defaults 中 定义 的 默认 值 ， 确 保 程序 能 够 继续 正确 执行 。 需 要 注意 的 是 ，read 方法 和 
decode_csv 方法 返回 的 都 是 数据 流 图 上 的 操作 ， 而 不 是 真实 的 数据 。 因 此 ， 用 户 需要 在 会 话 中 
执行 上 述 操作 才能 获取 到 输入 数据 。 

e TFRecords 文 件 


TFRecords 文件 存储 的 是 有 结构 的 序列 化 字符 块 ， 它 是 TensorFlow 推荐 的 标准 文件 格式 。 
TensorFlow 通过 Protocol Buffers 定义 了 TFRecords 文件 中 存储 的 数据 记录 及 其 所 含 字段 的 数据 结 
构 ， 它 们 分 别 定 义 在 tensorflow/core/example 目录 下 的 example.proto 和 feature.proto 文件 中 。 
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此 ， 我 们 将 数据 记录 转换 后 的 张 量 称 为 样 例 ， 将 记录 包含 的 字段 称 为 特征 域 。TFRecords 文件 的 
样 例 结构 层次 非常 清晰 ， 一 个 样 例 包含 一 组 特征 。 一 组 特征 由 多 个 特征 向 量 组 成 的 Python 字典 构 
成 。 为 了 说 明 读 取 TFRecords 文件 中 样 例 的 方法 ， 我 们 首先 使 用 tf.python_io.TFRecordWriter 


方法 将 表 4-3 中 的 数据 写 和 人 TFRecords 文件 stat.tfrecord 中 ， 示 例如 下 : 


"writer.py 
import tensorflow as tf 
# 创建 向 TFRecords 文件 写 数据 记录 的 writer 
writer = tf.python_io.TFRecordWriter('stat.tfrecord') 
# 两 轮 循环 构造 输入 样 例 
for i in range(1,3): 
# 创建 example.proto 中 定义 的 样 例 
example = tf.train.Example( 
features = tf.train.Features( 
feature = { 
"id': tf.train.Feature(int64 list = 
tf.train.Int64List(value=[i]))， 
"age': tf.train.Feature(int64 list = 
tf.train.Int64List(value=[i*24]))， 
"income': tf.train.Feature(float list = 
tf.train.FloatList(value=[i*2648.06])), 
'outgo': tf.train.Feature(float list = 
tf.train.FloatList(value=[i*1624.06])) 


) 
) 
# 将 样 例 序 列 化 为 字符 事后 ， 写 入 stat.tfrecord 文件 
writer.write(example.SerializeToString()) 


# 关闭 输出 流 
writer.close() 


然后 使 用 tf.TFRecordReader 方法 读 取 stat.tfrecord 文件 中 的 样 例 ， 接 着 使 月 
single_example 将 样 例 转换 为 张 量 。tf.parse_single_example 方法 的 输入 参数 


月 tf.parse 


features 是 


一 个 Python 字典 ， 具 体 包 括 组 成 样 例 的 所 有 特征 的 名 称 和 数据 类 型 ， 它 们 必须 与 writerpy 中 使 
用 tf.train.Features 方法 定义 的 特征 保持 完全 一 致 .tf.FixedLenFeature 方法 的 输入 参数 为 
特征 形状 和 特征 数据 类 型 。 因 为 本 例 中 的 4 个 特征 都 是 标量 ， 所 以 形状 为 []。 相 关 代 码 如 下 : 


”PPeader.py 
import tensorflow as tf 
# 创建 文件 名 队列 filename_queue 
filename_queue = tf.train.string input_producer(['stat.tfrecord']) 
# 创建 读 取 TFRecords 文件 的 reader 
reader = tf.TFRecordReader() 
# 取出 stat.tfrecord 文件 中 的 一 条 序列 化 的 样 例 serialized_example 
_， Serialized example = reader.read(filename_queue) 
# 将 一 条 序列 化 的 样 例 转换 为 其 包含 的 所 有 特征 张 量 
features = tf.parse_single_example( 
serialized example, 
features={ 
"id': tf.FixedLenFeature([], tf.int64), 
"age': tf.FixedLenFeature([], tf.int64), 
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'income': tf.FixedLenFeature([], tf.float32), 
'outgo': tf.FixedLenFeature([], tf.float32), 


} 
) 


@ 自由 格式 文件 

自由 格式 文件 指 用 户 自 定 义 的 二 进 制 文件 。 它 的 存储 对 象 是 字符 串 , 每 条 数据 记录 都 是 一 个 
国定 长 度 的 字 节 块 。 因 此 ， 如 果 想 要 正确 识别 和 转换 二 进 制 文件 中 的 数据 记录 ， 必 须 首先 使 用 
tf.FixedLengthRecordReader 方法 读 取 二 进 制 文件 中 国定 长 度 的 字 节 块 ， 然 后 使 用 
tf.decode_raw 方法 将 读 取 的 字符 串 转 换 为 uint8 类 型 的 张 量 ， 最 后 按照 用 户 定 义 的 数据 结构 
将 这 些 张 量 组 织 为 输入 样 例 。tf.FixedLengthRecordReader 方法 和 tf.TextLineReader 方法 
均 继 承 自 ReaderBase 类 ， 它 们 也 支持 一 次 读 取 多 条 记录 。tf.decode_raw 方法 的 功能 是 将 字符 
串 转 换 为 uint8 类 型 的 张 量 ， 表 4-4 介 绍 了 它 的 输入 参数 ， 该 方法 的 原型 如 下 所 示 : 

tf.decode_raw(bytes, out type, little _ endian=None, name=None) 


表 4-4 tf.decode_raw 方法 的 输入 参数 


参数 名 称 功能 说 明 
bytes 从 二 进 制 文件 中 读 取 的 字符 串 
out_type 样 例 的 数据 类 型 ， 如 tf.half、tf.float32、tf.float64、tf.int32、tf.uint8、tf.int16、tf.int8 
和 tf.int64 
little_endian 是 否 使 用 小 端 顺序 存储 数据 ， 默 认为 True 
name 该 方法 在 数据 流 图 上 的 操作 名 称 


TFRecords 文 件 是 TensorFlow 团 队 定 义 的 自由 格式 文件 ,TensorFlow 提 供 了 以 ProtocolBuffers 
定义 的 数据 结构 解析 和 重 构 样 例 的 相关 方法 。 读 者 也 可 以 根据 自身 需求 定义 自由 格式 文件 ,这 里 
不 再 举例 。 

4. 创建 样 例 队列 

执行 前 3 个 步 又 后 ， 我 们 得 到 4 个 特征 张 量 一 age、outgo 、id 和 income， 如 下 所 示 : 


{ age': “tf.Tensor “ParseSingleExample/Squeeze_age:6'” shape=() dtype=int64>， 
"outgo' : <tf.Tensor 'ParseSingleExample/Squeeze outgo:0' shape=() dtype=float32>, 
"id': <tf.Tensor “ParseSingleExample/Squeeze_id:6' shape=() dtype=int64>， 

"income': <tf.Tensor 'ParseSingleExample/Squeeze_income:0' shape=() dtype=float32>} 


在 会 话 执行 时 ， 为 了 使 计算 任务 顺利 获取 到 输入 数据 ， 我 们 需要 使 用 tf.train.start_ 
queue_runners 方法 启动 执行 人 队 操作 的 所 有 线程 ， 具 体 包 括 将 文件 名 和 人 队 到 文件 名 队列 的 操 
作 ， 以 及 将 样 例 人 队 到 样 例 队列 的 操作 。 这 些 队 列 操作 相关 的 线程 属于 TensorFlow 的 后 台 线 程 ， 
它们 确保 文件 名 队列 和 样 例 队列 始终 有 数据 可 以 供 后 续 操 作 读 取 。 下 面 我 们 补 全 读 取 TFRecords 
文件 数据 的 代码 reader.py: 


init op = tf.global variables initializer() 
sess = tf.Session() 


1 
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sess.run(init_op) 
# 启动 执行 入 队 操 作 的 后 人 台 线 程 
tf.train.start_ queue_runners(sess=sess) 
# 读 取 第 一 条 数据 记录 
for i in range(2): 
example = sess.run(features) 
print(example) 
输出 : 
{'age': 24, 'outgo': 10624.06, 'id': 1, 'income': 2048.6} 
{'age': 48, 'outgo': 2648.06, 'id': 2, 'income': 4696.6} 


虽然 我 们 用 上 面 的 代码 成 功 读 取 并 输出 了 stat.tfrecord 文件 中 的 数据 ， 但 是 这 种 方法 并 不 适 
用 于 生产 环境 。 因 为 它 的 容错 性 较 差 ， 主 要 体现 在 队列 操作 后 台 线 程 的 生命 周期 “无 人 管理 ”， 
任何 线程 出 现 异 常 都 会 导致 程序 崩 演 ,常见 的 异常 是 文件 名 队列 或 样 例 队 列 越界 抛 出 的 tf.errors. 
OutofRangeError。 队 列 越界 的 原因 通常 是 读 取 的 数据 记录 数量 超过 了 tf.train.string input_ 
producer 方法 中 指定 的 数据 集 遍 历次 数 。 下 面 是 常见 的 tf.errors.0utOfRangeError 错误 
示例 : 


import tensorflow as tf 
# 创建 文件 名 队列 filename_queue， 并 制定 遍历 两 次 数据 集 
filename_queue = tf.train.string input_producer(['stat.tfrecord'], num_epochs=2) 
# 省 略 中 间 过 程 
# 遍历 5 次 数据 集 ， 读 取 18 条 数据 记录 
for i in range(16) : 
example = sess.run(features) 
print(example) 
输出 : 
{'age': 24, 'outgo': 10624.06, 'id': 1, 'income': 2048.6} 
{'age': 48, 'outgo': 2648.06, 'id': 2, 'income': 4696.6} 
1 
2 


{'age': 24, 'outgo': 10624.06, 'id': 1, 'income': 2048.6} 
{'age': 48, 'outgo': 2648.06, 'id': 2, 'income': 4696.6} 
Traceback (most recent call last): 
File "nn.py", line 28, in <module> 
example = sess.run(features) 
# 省 略 调用 栈 日 志 
OutofRangeError (see above for traceback): FIFOQueue ' 0 input producer' is closed and 
has insufficient elements (requested 1, current size 0) 

[[Node: ReaderReadV2 = ReaderReadV2[_device="/job:localhost/replica:@/task:0/ 
cpu:8"](TFRecordReaderV2, input_producer)]] 

[[Node: ParseSingleExample/ParseExample/ParseExample/_9 = Recv[client terminate 
d=false, recv_device="/job:localhost/replica:6/task:6/gpu:6", send device= 
"/job:localhost/replica:@/task:8/cpu:6", send_ device incarnation=1, 
tensor_name="edge_18_ParseSingleExample/ParseExample/ParseExample", 
tensor_type=DT_FLOAT，_device="/Jjob:1localhost/replica:6@/task:6/gpu:6"]()]] 


为 了 处 理 这 种 异常 , 我 们 使 用 tf.train.Coordinator 方法 创建 管理 多 线程 生命 周期 的 协调 
器 。 协 调 器 的 工作 原理 很 简单 ， 它 监控 TensorFlow 的 所 有 后 台 线 程 。 当 其 中 某 个 线程 出 现 异常 
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时 ， 它 的 should_stop 成 员 方法 返回 True，for 循环 结束 。 然 后 程序 执行 finally 中 协调 器 的 
request_stop 成 员 方 法 ,请 求 所 有 线程 安全 退出 。 需 要 注意 的 是 ， 当 我 们 使 用 协调 器 管理 多 线 
旦 前 ， 需 要 先 执行 tf.1local_variables_initializer 方法 对 其 进行 初始 化 。 为 此 ， 我 们 使 用 
tf.group 方法 将 它 和 tf.global variables_initializer 方法 聚合 生成 整个 程序 的 初始 化 操 
作 init_op。 使 用 协调 器 的 示例 如 下 : 


import tensorflow as tf 
# 创建 文件 名 队列 filename_queue， 并 制定 遍历 两 次 数据 集 
filename_queue = tf.train.string input_producer(['stat.tfrecord'], num_epochs=2) 
# 省 略 中 间 过 程 
# 聚合 两 种 初始 化 操作 
init_op = tf.group(tf.global variables initializer(), 
tf.local variables_ initializer()) 
sess.run(init_op) 
# 创建 协调 器 
coord = tf.train.Coordinator() 
threads = tf.train.start_ queue_runners(sess=sess, coord=coord) 
# 打印 程序 的 后 侣 线程 信息 
print('Threads:%s' % threads) 
try: 
for i in range(10): 
if not coord.should_stop(): 
example = sess.run(features) 
print(example) 


十 


except tf.errors.OutOfRangeError : 
print( "Catch OutOofRangeError') 
finally: 
# 请 求 停止 所 有 后 台 线程 
coord.request_stop() 
print('Finish reading') 
# 等 待 所 有 后 人 台 线 程 安全 退出 
coord.join(threads) 
sess.close() 
输出 : 
Threads:[<Thread(Thread-1, started daemon 146248776427264)>, <Thread(Thread-2, started 
daemon 146248768634566)>] 
{'age': 24, 'outgo': 1624.6， 'id': 1, 'income': 2648.6} 
{'age': 48, 'outgo': 26048.06, 'id': 2, 'income': 4696.6} 
1 
2 


四 


{'age': 24, 'outgo': 1624.6， 'id': 1, 'income': 2648.6} 
{'age': 48, 'outgo': 26048.06, 'id': 2, 'income': 4696.6} 
Catch OutofRangeError 

Finish reading 


根据 输出 结果 来 看 ， 程 序 启动 了 两 个 后 台 线 程 进行 队列 操作 。 在 成 功 输出 4 条 数据 记录 后 ， 
程序 抛 出 tf.errors.0utOfRangeError 异常 。 在 发 起 停止 所 有 后 台 线 程 的 请 求 后 ， 程 序 输出 
Finish reading。 接 着 协调 器 等 待 所 有 后 台 线 程 安全 退出 ， 最 后 关闭 会 话 。 
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5. 扩展 阅读 : TFRecords 样 例 数 据 结构 
介绍 TFRecords 文件 格式 时 已 经 展示 了 创建 样 例 的 方法 ， 如 下 所 示 : 


example = tf.train.Example( 
features = tf.train.Features( 
feature = { 


} 
) 
) 


样 例 和 特征 的 层次 性 源 于 TensorFlow 对 数据 结构 的 巧妙 定义 ， 我 们 摘 取 tensorflow/core/ 
example 目录 下 example.proto 和 features.proto 文件 的 关键 部 分 进行 说 明 。 其 中 Example 内 部 包含 
一 个 Features 成 员 对 象 ， 如 下 所 示 : 


// example.proto 
message Example { 


Features features = 1; 


}; 
而 定义 在 feature.proto 中 的 Features 由 形 如 <string, Feature> 的 feature 字典 组 成 。 其 


中 ，feature 字典 的 值 的 数据 结构 为 Feature， 如 下 所 示 : 
// feature.proto 
message Features { 
// 特征 字典 
map<string, Feature> feature = 1; 
}; 
message Feature { 
// 所 有 特征 都 是 以 下 3 种 类 型 之 一 
oneof kind { 
BytesList bytes list = 1; 
FloatList float_ list = 2; 
Int64List int64 list = 3; 
} 
}; 
// 每 个 列表 存储 的 都 是 可 选 代 的 特定 类 型 数据 
message BytesList { 
repeated bytes value = 1; 
} 
message FloatList { 
repeated float value = 1 [packed = true]; 
} 
message Int64List { 
repeated int64 value = 1 [packed = true]; 
} 
4.1.2 ”创建 批 样 例 数 据 的 方法 


经 过 上 一 节 的 介绍 , 我 们 最 后 得 到 了 许多 样 例 , 但 是 这 些 样 例 需 要 打包 聚合 成 批 数 据 才 能 供 
模型 训练 、 评 估 和 推理 使 用 。TensorFlow 提供 的 tf .train.shuffle_batch 方法 不 仅 能 够 使 用 样 
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例 创 建 批 数据 ， 而 且 能 够 在 打包 过 程 中 打 乱 样 例 顺 序 ， 增加 随机 性 。 因 此 , 我们 认为 完整 的 输入 
流水 线 应 该 还 包括 一 个 批 数据 队列 。 下 面 给 出 完整 输入 流水 线 的 伪 代 码 示例 : 


def get my_example(filename_queue): 
reader = tf.SomeReader() 
_,， Value = reader.read(filename_queue) 
features = tf.decode_ some(value) 
# 对 样 例 进 行 预 处 理 
processed_ example = some_processing(features) 
return processed example 


def input pipeline(filenames, batch_size, num_ epochs=None): 
# 当 num_epochs==None 时 ， 表 示 文 件 名 队列 总 是 可 用 的 ， 一 直 循 环 入 队 
filename_queue = tf.train.string_input_producer( 
filenames, num_ epochs=num_ epochs, shuffle=True) 
example = get my_example(filename_queue) 
# min_after_dequeue 表示 从 样 例 队 列 中 出 队 的 样 例 个 数 ， 
# 值 越 大 表示 打 乱 顺序 效果 越 好 ， 同 时 意味 着 消耗 更 多 内 存 
min_after_dequeue = 16666 
# capacity 表示 批 数据 队列 的 容量 ,推荐 设置 : 
# min_after _ dequeue + (num threads + a small safety margin) * batch_ size 
capacity = min_after _ dequeue + 3 * batch_ size 
# 创建 批 样 例 example_batch 
example_batch = tf.train.shuffle_batch( 
[example], batch_ size=batch size, capacity=capacity, 
min_after_dequeue=min_after_dequeue) 
return example_batch 


tf.train.shuffle_batch 方法 除了 上 面 使 用 的 参数 外 ， 常 用 的 还 有 设置 线程 个 数 的 
num_threads 参数 ， 设 置 随机 化 种 子 的 seed 参数 ， 以 及 为 人 队 多 条 样 例 设置 的 enqueue_many 
参数 。 现 在 我 们 的 输入 流水 线 补 齐 了 创建 批 样 例 数据 的 最 后 一 环 。 图 4-2 展示 了 使 用 完整 的 输入 
流水 线 处 理 数据 的 工作 流程 。 

文件 名 列表 ”文件 名 队列 样 例 队列 批 样 例 队 列 
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图 4-2 完整 的 输入 流水 线 工作 流程 


4.1.3 ”填充 数据 节点 的 方法 


使 用 批 数据 训练 的 模型 基本 都 使 用 填充 数据 节点 的 方法 , 它 不 需要 存储 完整 数据 集 ， 有效 减 
少 了 内 存 开销 。 同时, 基于 输入 流水 线 的 数据 读 取 方法 保证 了 实时 性 , 与 将 全 量 数据 预 加 载 到 内 
存 中 并 没有 明显 的 性 能 差距 。 填 充 数据 节点 的 方法 很 简单 ， 只 需要 在 会 话 中 执行 session.run 
方法 时 ， 向 其 feed_dict 参数 输入 符合 占 位 符 操作 中 定义 的 数据 即 可 。feed_dict 参数 接受 形 
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如 < 数据 节点 ,填充 数据 > 的 Python 字典 。 我 们 使 用 完整 的 输入 流水 线 处 理 数据 ， 并 以 填充 数据 节 
点 的 方式 将 批 样 例 传人 数据 流 图 ， 流 程 如 下 所 示 : 


# 使 用 上 一 节 定 义 的 input_pipeline 方法 获取 批 样 例 x_batch 

x_batch = input_ pipeline(['stat.tfrecord'], batch_ size=20) 

# 省 略 创 建 模型 步 又 

sess = tf.Session() 

init_op = tf.group(tf.global variables initializer(), 
tf.local_variables_ initializer()) 


sess.run(init_op) 
# 创建 协调 器 
coord = tf.train.Coordinator() 
threads = tf.train.start _ queue runners(sess=sess, coord=coord) 
try: 
for _ in range(1666) : 
if not coord.should_stop(): 
sess.run(train_op) 
print(example) 


except tf.errors.OutofRangeError: 
print('Catch OutOofRangeError') 

finally: 
# 请 求 停止 所 有 后 台 线 程 
coord.request_stop() 
print('Finish reading') 

# 等 待 所 有 后 台 线 程 安全 退出 

coord.join(threads) 

sess.close() 


4.1.4 ”处 理 CIFAR-10 数据 集 的 最 佳 实践 


本 节 我 们 以 著名 的 图 像 数 据 集 CIFAR-10 为 例 ， 展 示 如 何 将 图 4-2 中 的 输入 流水 线 运用 到 实 
践 中 ,首先 ,简要 介绍 下 CIFAR-10 数据 集 。 它 总 共 包 含 60 000 张 32 像素 x32 像素 的 3 j 通 (RGB ) 
彩色 图 片 , 即 单 张 图 像 大 小 为 32x32x3=3072 字 节 。 图 片 按照 其 主体 内 容 一 共 分 为 10 类 , 每 一 类 
6000 张 图 片 。 这 10 类 具有 独特 性 和 排他 性 ， 比 如 : automobile 和 truck 这 两 个 类 别 没 有 一 张 重复 
的 照片 。automobile 包含 轿车 、 跑 车 、SUV 等 , 而 truck 只 包含 大 卡车 。 同时, 为 了 避免 概念 混淆 ， 
两 种 类 别 都 不 包含 小 卡车 或 皮卡 车 。 读 者 可 以 在 CIFAR-10 官网 ( http:/wwwi.cs.toronto.edu/~kriz/ 
cifar.html ) 下 载 便于 Python、Matlab 和 C 程序 处 理 的 3 个 版 本 的 数据 集 。 整 个 数据 集 被 分 为 了 6 
个 批 数据 ， 每 一 批 数 据 都 包含 10 000 张 图 片 。 其 中 ，50 000 张 用 于 模型 训练 ， 剩 下 的 10 000 张 
用 于 模型 测试 。 

在 CIFAR-10 数据 集中 ， 一 条 数据 记录 由 类 别 标签 和 图 像 数 据 两 部 分 组 成 ， 如 图 4-3 所 示 。 
我 们 已 经 知道 存储 单 张 图 片 需 要 3072 字 节 ， 而 存储 类 别 标签 需要 1 字 节 。 因 此 ，CIFAR-10 数据 
集中 的 单条 数据 记录 占用 3073 字 节 。 它 们 以 二 进 制 数据 文件 格式 存储 。 
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图 4-3” CIFAR-10 数据 集 和 单条 记录 的 组 成 结构 ( 另 见 彩 插 ) 


我 们 使 用 图 4-2 中 所 示 的 输入 流水 线 处 理 CIFAR-10 数据 集 ， 程 序 如 下 所 示 : 


"”" "处理 CIFAR-16 数据 集 的 示例 程序 """ 
# 4.1 best practice.py 

# -*- coding:utf-8 -*- 

# 类 别 标签 为 1 字 节 

LABEL_BYTES = 1 

# 图 片 尺寸 为 32 X32 

IMAGE_SIZE = 32 

# 图 片 为 RGB 3 通道 

IMAGE_DEPTH = 3 

# 图 片 数据 为 32x32x3 二 3672 字 节 
IMAGE_BYTES = IMAGE_SIZE * IMAGE_SIZE * IMAGE_DEPTH 
# 10 类 标签 

NUM_CLASSES = 16 


import tensorflow as tf 


def read_cifar16(data_file，batch_size): 
""" 从 CIFAR-16 数据 文件 读 取 批 样 例 
输入 参数 : 
data_file: CIFAR-16 数据 文件 
batch_size: 批 数据 大 小 
返回 值 : 
images: 形 如 [batch_size，image_size，jimage_size，3] 的 图 像 批 数据 
labels: 形 如 [batch_size，NUM_CLASSES] 的 标签 批 数 据 
# 单条 数据 记录 大 小 为 1+3672=3673 字 节 
record bytes = LABEL_BYTES + IMAGE_BYTES 
# 创建 文件 名 列表 
data_files = tf.gfile.Glob(data_file) 
# 创建 文件 名 队列 
file_queue = tf.train.string_input_producer(data_files，shuffle=True) 
# 创建 二 进 制 文件 对 应 的 Reader 实例 ， 按 照 记 录 大 小 从 文件 名 队列 中 读 取样 例 
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reader = tf.FixedLengthRecordReader(record_bytes=record_bytes) 
_,， Value = reader.read(file_queue) 
# 将 样 例 拆 分 为 类 别 标签 和 图 片 
record = tf.reshape(tf.decode raw(value, tf.uint8), [record_bytes]) 
label = tf.cast(tf.slice(record, [LABEL_BYTES]), tf.int32) 
# 将 长 度 为 [depth * height * width] 的 字符 串 转 换 为 形 如 [depth，height，width] 的 图 片 张 量 
depth_major = tf.reshape(tf.slice(record, [LABEL_BYTES], [IMAGE_BYTES]), 
[IMAGE_DEPTH, IMAGE_SIZE, IMAGE_SIZE]) 
# 改变 图 片 张 量 各 维度 顺序 ， 从 [depth，height，width] 转换 为 [height，width，depth] 
image = tf.cast(tf.transpose(depth_major，[1，2，68])，tf.float32) 
# 创建 样 例 队列 
example_queue = tf.RandomShuffleQueuel( 
capacity=16 * batch_size， 
min_after_dequeue=8 * batch_size， 
dtypes=[tf.float32, tf.int32], 
shapes=[[IMAGE_SIZE, IMAGE_SIZE, IMAGE_DEPTH], [1]]) 
num_threads = 16 
# 创建 样 例 队列 的 入 队 操 作 
example_enqueue_op = example_queue.enqueue([image, label]) 
# 将 定义 的 16 个 线程 全 部 添加 到 queue runner 中 
tf.train.add_queue_runner(tf.train.queue_runner.QueueRunner( 
example_queue, [example_ enqueue op] * num_ threads)) 


# 从 样 例 队 列 中 读 取 批 样 例 图 片 和 标签 
images, labels = example_ queue.dequeue many(batch_size) 
labels = tf.reshape(labels, [batch_ size, 1]) 
indices = tf.reshape(tf.range(0, batch size, 1), [batch_ size, 1]) 
labels = tf.sparse to _dense( 
tf.concat(values=[6, labels], axis=1), 
[batch_size, NUM CLASSES], 1.06, 6.0) 


# 展示 images 和 labels 的 数据 结构 

assert len(images.get_shape()) == 4 

assert images.get_shape()[6] == batch size 
assert images.get_shape()[-1] == 3 

assert len(labels.get_shape()) == 2 

assert labels.get_shape()[6] == batch size 
assert labels.get_shape()[1] == NUM_CLASSES 


return images, labels 
上 面 代 码 中 定义 的 read_cifar16 方法 实现 了 从 CIFAR-10 数据 集中 读 取 批 样 例 的 功能 。 输 
入 参数 data_file 和 batch_size 分 别 表示 CIFAR-10 数据 集 文件 和 批 样 例 个 数 。 返回 值 images 
和 labels 分 别 表示 批 样 例 图 像 数 据 和 类 别 标签 ， 如 图 4-3 所 示 。 用 户 可 以 将 read_cifar18 方 
法 般 入 在 自己 的 模型 代码 中 ， 如 下 所 示 : 


import tensorflow as tf 


x = tf.placeholder(...) 
y_ = tf.placeholder(...) 
weight = tf.Variable(...) 
bias = tf.Variable(...) 

# 定义 模型 和 优化 器 等 

with tf.Session() as sess: 
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tf.global_variables_initializer().Pun() 

batch_xs，batch_ys = read_cifar16(FLAGS .data_ur1，FLAGS .batch_size) 
sess.run(train op, feed dict={x: batch xs, y_: batch ys}) 

# 打印 日 志 


综 上 ， 我 们 基于 TensorFlow 的 输入 流水 线 技术 ， 展 示 了 读 取 CIFAR-10 数据 集 的 最 佳 实践 。 
针对 其 他 数据 集 ， 如 ImageNet， 我 们 也 可 以 使 用 这 套 并 行 技术 提升 读 取 数据 的 效率 。 


4.1.5 扩展 阅读 : MNIST 数 据 集 


由 于 Python 读 取 数 据 文件 的 方法 已 经 有 大 量 资 料 可 供 参 考 ， 本 节 不 再 袭 述 小 数据 集 的 数据 
读 取 方 法 ， 仅 给 出 一 个 典型 小 数据 集 的 介绍 。MNIST 是 一 套 手 写 体 数字 的 图 像 数 据 集 ， 由 纽约 
大 学 的 Yann LeCun 等 人 维护 。 该 数据 集中 的 手写 体 数 字 的 大 小 固定 为 28 像素 x28 像素 。 图 4-4 


给 出 了 其 中 的 典型 图 像 示 例 。 


53 4-4 MNIST Ol LO 像 


MNIST 图 像 数 据 集 使 用 形 如 [28,28] 的 二 阶 数组 来 表示 每 张 图 像 ， 数 组 中 的 每 个 元 素 对 应 
一 个 像素 点 。 该 数据 集中 的 图 像 都 是 256 阶 灰 度 图 , 像素 值 0 表示 白色 (背景 ), 255 表示 黑色 (前 
景 )。 根 据 应 用 的 需求 ， 除 了 可 以 使 用 取 值 为 [6,255] 的 uint8 数据 类 型 表示 图 像 外 ， 还 可 以 将 
灰 度 值 缩放 为 [0,1] 的 float32 数据 类 型 ,以 图 4-5 为 例 ,右边 的 数组 表示 左边 的 手写 体 数 字 “1” 
的 图 像 。 


图 4-5 使 用 数组 表示 手写 体 数字 的 图 像 


由 于 每 张 图 像 的 尺寸 都 是 28 像素 x28 像素 ， 为 了 方便 连续 存储 , 我 们 可 以 将 形 如 [28,28] 的 
二 阶 数 组 “ 挫 平 ”成 形 如 [784] 的 一 阶 数组 。 数 组 中 的 784 个 元 素 共同 组 成 了 一 个 784 维 向 量 。 
根据 各 分 量 取 值 的 不 同 ， 这 个 784 维 的 向 量 便 可 以 表示 784x256=200 704 张 不 同 的 图 像 。 但 这 些 
图 像 并 非 每 一 张 都 代表 有 效 的 手写 体 数 字 ， 其 中 绝 大 部 分 都 是 如 图 4-6 所 示 的 噪声 图 。 


图 4-6 随机 取 值 向 量 表示 的 噪声 图 
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是 否 存在 快速 准确 地 识别 手写 体 数 字 图像 的 算法 呢 ? 答案 是 肯定 的 。MNIST softmax 模型 使 
用 一 层 神经 网 络 实现 了 92% 左右 的 识别 正确 率 ， 其 优点 在 于 计算 速度 快 、 编 程 难 度 小 ,适合 作为 机 
器 学 习 的 入 门 模型 。 在 下 一 章 中 , 我 们 将 介绍 使 用 TensorFlow 实现 MNIST softmax 模型 的 具体 流程 。 


4.2 ”模型 参数 


模型 参数 指 模型 的 权重 值 和 偏 置 值 ， 即 我 们 训练 的 对 象 。 如 果 想 要 灵活 地 实现 自己 的 训练 目 
标 ， 那 么 有 必要 掌握 TensorFlow 模型 参数 的 使 用 方法 ， 具 体 包括 模型 参数 的 创建 、 初 始 化 和 更 
新 ， 以 及 从 模型 文件 中 存储 和 恢复 模型 参数 的 方法 。 其 中 ,前 3 个 方法 主要 由 tf.Variable 类 
实现 ， 后 两 个 方法 由 tf.train.Saver 类 实现 。 本 节 首 先 介绍 模型 参数 的 典型 使 用 流程 ， 然 后 依 
次 介绍 这 5 个 使 用 方法 ， 最 后 简要 介绍 变量 作用 域 机 制 在 处 理 复杂 模型 时 的 好 处 和 方法 。 


4.2.1 ”模型 参数 的 典型 使 用 流程 


我 们 将 模型 参数 的 使 用 流程 分 为 如 图 4-7 所 示 的 5 个 典型 步骤 ,图 中 的 tf.Variable 类 实现 
了 数据 流 图 上 的 存储 节点 。 它 能 够 在 操作 执行 完成 后 仍然 保存 变量 值 , 故而 我 们 使 用 它 存储 模型 参 
数 。 为 了 训练 模型 ， 我 们 需要 依次 创建 、 初 始 化 和 更 新 模型 参数 。tf.train.Saver 是 辅助 训练 的 
工具 类 , 它 实现 了 存储 模型 参数 的 变量 与 checkpoint 文件 间 的 读 写 操作 。checkpoint 文 件 是 以 < 变量 
名 ， 张 量 值 > 的 形式 来 序列 化 存储 模型 参数 的 二 进 制 文件 ， 它 是 用 户 持久 化 存储 模型 参数 的 推荐 文 
件 格 式 ， 扩 展 名 为 ckpt。 因 此 ， 我 们 一 般 称 存储 模型 参数 的 checkpoint 文件 为 模型 文件 。 图 4-7 中 
的 “存储 ”是 指 将 变量 中 存储 的 模型 参数 定期 写 人 checkpoint 文件 。 通 常 ， 我 们 按照 固定 训练 步 
数 设 置 检查 点 ， 如 每 训练 10 步 就 将 模型 参数 存储 到 checkpoint 文件 。“ 恢 复 ” 是 指 读 取 checkpoint 
文件 中 存储 的 模型 参数 ， 基 于 这 些 值 继 续 训 练 模型 。TensorFlow 提供 了 选择 性 存储 和 恢复 部 分 任 
意 变 量 的 方法 , 这 使 得 用 户 可 以 灵活 地 改造 模型 , 并 基于 之 前 的 训练 结果 做 参数 微调 ( fine-tuning )。 


tf.Variable 


tf.train.Saver 


checkpoint 
文件 


图 4-7 使 用 模型 参数 的 5 个 典型 步 又 


4.2.2 ”使 用 tf.Variable 创 建 、 初 始 化 和 更 新 模型 参数 
为 了 让 读者 能 够 更 深入 地 了 解 和 使 用 tf.variable 类 ， 本 节 将 依次 介绍 使 用 tf.variable 
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类 创建 、 初 始 化 和 更 新 模型 参数 的 基本 原理 和 具体 方法 。 
1. 创建 模型 参数 
创建 模型 参数 是 流程 的 第 一 步 , 它 的 主要 作用 是 确定 模型 参数 的 基本 属性 , 包括 初始 值 、 数 
据 类 型 、 张 量 形状 、 变 量 名 称 等 。 通 常 ， 我 们 使 用 tf.Variable 的 构造 方法 创建 变量 ， 并 将 模 
型 参数 保存 在 变量 中 。 假 设 我 们 创建 一 个 变量 ， 它 保存 的 权重 值 满足 正 态 分 布 。 代 码 如 下 所 示 : 


import tensorflow as tf 


W = tf.Variable(initial_ value=tf.random normal(shape=(1, 4), mean=1606, stddev=08.35), 
name="W") 


其 中 ，tf.random_normal 方法 返回 形状 为 [1,4] 的 张 量 。 它 的 4 个 元 素 符合 均值 为 100、 标 准 差 
为 0.35 的 正 态 分 布 。initial_value 参数 表示 在 会 话 中 为 变量 设置 的 初始 值 ， 它 接受 张 量 和 生 
成 张 量 的 方法 ， 如 tf.random_normal 方法 ; 它 也 接受 可 以 通过 convert_to_tensor 方法 转换 
为 张 量 的 数据 类 型 ， 如 Python 列表 、 元 组 等 。 除 了 生成 符合 正 态 分 布 的 张 量 外 ，TensorFlow 还 
提供 了 许多 生成 特定 张 量 的 方法 。 这 些 张 量具 体 包 括 以 下 3 类 : (1) 符合 某 种 统计 分 布 的 随机 张 
量 ; (2) 符合 某 种 生成 规则 的 序列 张 量 ; (3) 常量 张 量 。 表 4-5、 表 4-6 和 表 4-7 分 别 列 出 了 生成 这 
3 类 张 量 的 方法 和 样 例 ， 供 读者 参考 。 
表 4-5 生成 符合 统计 分 布 的 随机 张 量 方法 


方 法 名 统计 分 布 样 例 代 码 样 例 数 据 
tf.random normal 正 态 分 布 tf.random normal([2,3],mean=-1, [[8.16691979,6.71194983， 
stddev=4) -1.41369571],[-6.12917435， 
-2.160764994，-1.61486424]] 
tf.truncated_normal | 截 尾 正 态 分 布 | tf.truncated_normal([2,3],mean=-1， [[-3.4862115,-1.4763366， 
stddev=4) -3.62793112],[-6.34977388， 
2.4962215，1.26519168]] 
tf.random_uniform 均匀 分 布 tf.random uniform([2,3]) [[8.6775713,6.15819943， 
98.72737145],[6.22914616， 
9.19896961，6.27835727] ] 
tf.multinomial 多 项 式 分 布 tf.multinomial(tf.1og([[16.，16.]])，5) | [[1, 8, 68, 8, 1]] 
tf.random gamma 伽 马 分 布 tf.random_gamma([16]，[6.5，1.5]) [[8.1762181， 
9.45917341],[6.52689838， 
3.86994534],[6.47716681， 
1.69645565]] 
tf.random_shuffle 按 维度 重 洗 tf.random shuffle([[1, 2]， [3， 4]，| [[3, 4],[1, 2],[5, 6]] 
[5,6]]) 
tf.random_crop 按 形 状 裁剪 tf.random_crop([[1，2]，[3，4]]，[1，2]) | [[3, 4]] 


表 4-6 生成 符合 生成 规则 的 序列 张 量 方法 


方 法 名 初始 值 生成 规则 样 例 代码 样 例 数据 

tf.linspace start (stop - start) / tf.linspace(start=10.0, stop=12.0,num=3) [16.611.6 12.6] 
(num - 1) 

tf.range start delta tf.range(start=3, limit=18, delta=3) [3, 6, 9, 12, 15] 
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表 4-7 生成 常量 张 量 方法 


方 法 名 初始 值 样 例 代码 样 例 数据 
tf.zeros 0 tf.zeros([3, 4], tf.int32) [[8, 8, 68, 8], [8, 8, 68, 6], [68, 8, 8, 60]] 
tf.zeros like 0 tf.zeros_like([[1, 2, 3], [4, 5, 6]]) [[e, 86, 6], [8, 8, 6]] 
tf.ones 1 tf.ones([2, 3], tf.int32) [[1, 1, 1], [1, 1, 1]] 
tf.ones_like 1 tf.ones_like([[1, 2, 3], [4, 5, 6]]) [[1, 1, 1], [1, 1, 1]] 
tf.fill value tf.fill([2, 3], 9) [[9, 9, 9], [9, 9, 9]] 
tf.constant value tf.constant(-1.06, shape=[2,，3]) [[-1.6，-1.6，-1.6]，[-1.6，-1.6，-1.6]] 


除了 直接 传 值 和 使 用 生成 张 量 的 方法 外 , 我 们 还 可 以 使 用 初始 化 的 变量 值 作为 新 创建 变量 的 
初始 值 。 对 于 已 经 初始 化 的 变量 ， 其 成 员 方 法 initialized_value 返回 的 变量 值 可 以 直接 传人 
新 变量 的 构造 方法 。 使 用 initialized_value 方法 的 示例 如 下 : 


import tensorflow as tf 


W = tf.Variable(tf.random_normal(shape=(1，4)，stddev=6.35)，name="N") 
# 使 用 W 的 值 初始 化 新 变量 w_replica 

w_replica = tf.Variable(W.initialized value(), name="w_replica") 

# 使 用 W 的 2 倍 值 初 始 化 新 变量 w_twice 

w_twice = tf.Variable(W.initialized _ value() * 2.0, name="w_ twice") 


但 是 ， 用 户 不 能 直接 使 用 变量 实例 作为 新 变量 的 初始 值 。 因 为 在 会 话 中 执行 初始 化 操作 时 ， 
两 个 变量 会 出 现 循环 依赖 的 问题 。 

当 我 们 调用 tf .variable 的 构造 方法 时 ， 程 序 向 数据 流 图 添加 了 存储 节点 。 在 上 一 章 中 简 
单 介绍 过 ， 存 储 节 点 是 可 以 被 展开 的 子 图 ， 它 具体 包含 3 个 操作 和 1 个 初始 值 。 这 里 我 们 使 用 
TensorBoard 可 视 化 创建 权重 值 W 的 数据 流 图 ， 如 图 4-8 所 示 。 因 为 我 们 使 用 tf.random_normal 
返回 的 随机 张 量 初始 化 W, 所 以 它 的 子 图 不 再 包含 初始 值 , 而 是 依赖 一 个 前 置 操作 random_normal。 
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© 
W Operation: VariableV2 
Assign read Attributes (4) 
container ~ {"s""} 
:| dtype {type”:"DT_FLOAT} 
了 shape {'shape":("dim":[('size”:1), 
WwW) {'size”4)]} 
< shared_name{"s":"} 
1 Inputs (0) 
Outputs (2) 
W/Assign 
W/read 
二 一 
Remove from main graph 
1 
= 
random,.normal 


1 


{tandom... 
mean O » 


stddev O 一 六 


Random... 
shape O- 


图 4-8 创建 权重 值 w 的 数据 流 图 
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当 我 们 在 会 话 中 执行 初始 化 操作 (如 tf.global variables initializer ) 时 ,程序 内 部 
调用 变量 W 的 Assign 操作 ， 而 Assign 操作 又 依赖 random_normal 操作 。 因 此 ， 初 始 化 变量 的 
完整 过 程 是 程序 执行 random_normal 操作 ， 将 返回 的 张 量 输入 到 Assign 操作 ， 最 后 Assign 操 
作 将 这 些 张 量 赋值 到 变量 W。 下 面 详细 解释 这 个 执行 步骤 的 内 部 实现 。 

2. 初始 化 模型 参数 

我 们 知道 没有 初始 化 的 变量 是 无 法 使 用 的 。 因 为 创建 变量 仅仅 定义 了 一 个 “ 空 达 ”， 所 以 需 
要 将 数据 以 张 量 的 形式 传人 变量 。 在 会 话 维护 的 运行 环境 中 完成 的 这 个 过 程 , 我 们 称 为 初始 化 变 
量 。TensorFlow 提供 了 两 种 初始 化 变量 的 选择 ， 一 种 是 传人 初始 值 ， 然 后 执行 初始 化 操作 赋值 ， 
另 一 种 是 从 checkpoint 文件 中 恢复 变量 的 值 。 让 我 们 先 把 目光 聚焦 在 前 者 ， 下 一 节 再 介绍 如 何 从 
checkpoint 文件 中 恢复 变量 。 

我 们 知道 许多 关于 生成 初始 值 的 方法 ,但 是 还 未 系统 介绍 初始 化 操作 。 在 诸多 方法 中 , 我 们 
最 常用 的 初始 化 操作 tf.global_variables_initializers 被 公认 为 是 最 简便 的 方法 。 只 要 在 
会 话 中 执行 它 ， 程 序 就 会 初始 化 全 局 的 变量 。 示 例如 下 : 


import tensorflow as tf 


weights = tf.Variable(tf.random_normal(shape=(1，4)，stddev=6.35)，name="weights") 
biases = tf.Variable(tf.zeros([4]), name="biases") 
# 创建 会 话 
with tf.Session() as sess: 
# 初始 化 全 局 变量 
sess.run(tf.global variables initializer()) 
print(sess.run([weights, biases])) 


输出 : 
[array([[-8.62929228，-6.37313664，-6.16337462， 6.66469851]]，dtype=float32)， 
array([ 6.， 6.， 6.， 6.]，dtype=float32)] 


除了 一 次 初始 化 所 有 的 变量 外 ， 有 时 我 们 可 能 仅 需 要 初始 化 部 分 变量 。 针 对 这 种 情况 , 我们 
可 以 调用 tf.variables_initializer 方法 ， 并 显 式 设置 想 要 初始 化 的 变量 列表 var_1list。 如 
下 所 示 : 


import tensorflow as tf 


weights = tf.Variable(tf.random normal(shape=(1, 4), stddev=6.35), name="weights") 
biases = tf.Variable(tf.zeros([4]), name="biases") 
# 创建 会 话 
with tf.Session() as sess: 
# 初始 化 weights 
sess.run(tf.variables initializer( [weights])) 
print(sess.run(weights)) 
'"'' 输 出 : [[-8.36972174 -6.85976668 -8.24391153 -8.46784661]]'"' 


变量 列表 var_list 本 质 上 是 同类 变量 的 集合 。 在 创建 变量 时 ， 我 们 可 以 通过 collections 
参数 显 式 指定 变量 所 属 的 集合 类 别 , 不 同类 别 集合 拥有 不 同 的 关键 字 。 如 果 没 有 指定 collections 
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参数 ， 它 的 默认 值 为 6raphKeys .GLOBAL_VARIABLES， 即 将 该 变量 添加 到 全 局 变 
如 果 显 式 指定 trainable 参数 为 True ， 
GraphKeys .TRAINABLE_VARIABLES。 表 4-8 列 出 了 TensorFlow 内 置 的 5 类 变量 集合 。 
类 到 不 同 集合 , 用 户 可 以 快速 找到 具有 某 类 相同 特 和 
到 全 局 变 


方法 ,我们 就 能 快速 得 


量 的 集合 


方法 名 称 


表 4-8 TensorFlow 内 置 的 5 类 变 


类 别 关键 字 


F 的 变量 。 


变量 集 
则 该 变量 被 加 入 训练 参数 的 集合 ， 类 别 关键 字 为 


和 


De 


通过 将 变 


量 归 


比如 , 调用 tf.global_variables 


量 集合 


类 别 说 明 


tf.global variables 
tf.local variables 
tf.model variables 
tf.trainable variables 


tf.moving average variables 


GraphKeys.GLOBAL_VARIABLES 
GraphKeys.LOCAL_VARIABLES 
GraphKeys.MODEL_VARIABLES 


GraphKeys.TRAINABLE_VARIABELS 


GraphKeys.MOVING_AVERAGE_VARIABLES 


跨 设 备 的 全 局 变量 集合 


存储 模型 参数 的 变 


和 


使 用 ] 


指数 移动 平均 的 变量 


集合 


这 一 认识 ，tf.global_variables_initializer 方法 的 内 部 实现 也 就 不 难 猜 到 。 我 们 
在 文件 中 可 以 找到 其 方法 定义 : 


def global variables initializer(): 
return variables_ initializer(global_ variables()) 


该 方法 的 本 质 是 调用 tf.variables_initializer 方法 ， 通 过 将 var_list 设置 为 global_ 
类 似 的 封装 方法 ( 如 


variables 方法 返回 的 全 局 变量 


oR 合 ， 实 现 了 全 局 变量 的 初始 化 操作 。 
tf.local_variables_initializer ) 也 是 同样 的 原理 。 值 得 一 提 的 是 ， 在 执 f 


分布 式 训练 任务 


时 ，tf.global_variables initializers 方法 能 够 实现 跨 设 备 的 全 局 变量 初始 化 。 


当 我 们 需要 检验 变量 是 
4-9 所 示 。 


否 成 功 初始 化 时 ，TensorFlow 提供 了 相关 的 判断 和 断 言 方 法 ， 


如 表 


表 4-9 调试 变量 状态 的 方法 
方法 名 称 功能 说 明 
tf.is variable initialized 仿 查 变量 是 否 初 始 化 
tf.report_ uninitialized variables 获取 未 初始 化 的 变量 集合 
tf.assert variables initialized 断言 变量 已 经 初始 化 


3. 更 新 模型 参数 


我 们 知道 模型 参数 都 保存 在 变量 中 ， 因 此 更 新 模型 参数 主要 指 更 新 变量 中 存储 的 模型 参数 。 
变量 是 数据 流 图 中 的 存储 节点 , 也 是 3 种 节点 中 唯一 有 状态 的 节点 。 对 于 无 状态 的 节点 , 如 计算 


节点 , 它 的 输出 
点 的 输出 


输入 张 量 唯一 


由 输入 张 量 和 节点 操作 共同 确定 。 因 为 节点 表示 的 操作 是 不 变 的 ， 所 以 无 状态 节 
确定 。 比 如 : 


VE 
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S 
从 


a 
b 


在 不 改变 乘法 操作 的 情况 下 ，b 


tf.placeholder(tf.float32) 
a*a 


的 值 由 输入 张 量 a 唯一 确定 。 对 于 有 状态 的 节点 ， 如 存储 节 


点 ， 它 的 输出 还 会 受到 内 部 保存 的 模型 参数 的 影响 。 比 如 : 


> 


tf.placeholder(tf.float32) 
tf.Variables(...) 
tf.Variables(...) 
matmul(W, x) + b 


x 
W 
b 
y 


在 不 改变 和 矩阵 乘法 和 加 法 操作 的 情况 下 ，y 的 值 由 输入 x、 变 量 W 和 变量 b 共同 确定 。 即 使 
输入 x 不 变 , 我 们 也 不 能 确定 输出 的 y 值 。 按照 上 面 的 方法 计算 y 值 , 只 是 读 取 了 变量 W 和 变量 


b 的 值 ， 而 不 会 更 新 它们 的 值 。 


更 新 模型 参数 本 质 上 就 是 对 变 划 
新 变量 的 方法 ,具体 包括 直接 赋值 、 


中 保存 的 模型 参数 重新 赋值 。 表 4-10 列 出 了 TensorFlow 更 
加 法 赋值 和 减法 赋值 3 种 方法 。 其 中 ,后 两 者 本 质 上 是 对 直 


接 赋值 方法 的 封装 。 
表 4-10 更 新 模型 参数 的 方法 
方法 名 称 功能 说 明 
tf.assign 直接 赋值 
tf.assign_add 加 法 赋值 
tf.assign_sub 减法 赋值 


下 面 演示 了 在 数据 流 图 不 变 的 情况 下 , 存储 节点 的 状态 不 同 导致 相同 输入 得 到 不 同 输出 的 示 
例 。 这 里 使 用 tf .assign_add 操作 更 新 变量 W， 代 码 如 下 所 示 : 


import tensorflow as tf 

# 创建 变量 W 

W = tf.Variable(6.06, name='W') 
double = tf.multiply(2.6，W) 
with tf.Session() as sess: 


sess.run(tf.global variables initializer()) 


# 循环 执行 4 次 加 法 赋值 操作 
for i in range(4) : 


sess.run(tf.assign_add(W, 1.06)) 
print('W=%s, double=%s' % (sess.run(W), sess.run(double))) 


double=2.6 
double=4.6 
，double=6.6 
，double=8.6 


中 II AN 
-大 WDODPE - 
v 
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bs 


根据 输出 结果 来 看 ， 每 次 循环 执行 的 tf.assign_add 操作 都 成 功 修改 了 变量 W 的 值 。 即 使 


数据 流 图 和 multiply 操作 输入 的 张 量 x 固定 不 变 ， 输 出 结果 double 也 随 着 变量 W 的 增 大 而 改 
变 。 图 4-9 是 我 们 使 用 TensorBoard 泻 染 的 上 述 操 作对 应 的 数据 流 图 。 
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Remove from main graph 

4-9 ”更 新 变量 W 的 数据 流 图 

在 我 们 使 用 TensorFlow 训练 模型 时 ， 优 化 器 的 apply_gradients 成 员 方 法 内 部 也 会 调用 表 

4-8 中 的 方法 完成 模型 参数 的 更 新 。 在 多 线程 中 训练 模型 时 ， 可 能 涉及 对 变量 的 并 发 读 写 。 考 虑 
到 这 一 点 ，TensorFlow 为 变量 提供 了 线程 安全 的 更 新 方法 ， 通 过 加 锁 机 制 确保 数据 一 致 性 。 

tf.assign 方法 的 输入 参数 use_locking 的 默认 值 为 True, 即 TensorFlow 默认 对 并 发 读 写 加 锁 。 


4.2.3 ”使 用 tf.train.Saver 保 存 和 恢复 模型 参数 


tf.train.Saver 是 辅助 训练 的 工具 类 ， 它 实现 了 存储 模型 参数 的 变量 和 checkpoint 文件 间 
的 读 写 操作 。 当 我 们 创建 saver 实例 时 ， 它 的 构造 方法 会 向 当前 的 数据 流 图 中 添加 一 对 操作 
Save0p 和 Restore0p。 其 中 ，Ssaveop 负责 向 checkpoint 文件 中 写 人 变量 ，Restoreop 负责 从 
checkpoint 文件 中 读 取 变量 。 


1. 保存 模型 参数 


saver 拥有 许多 可 配置 参数 ， 表 4-11 列 出 了 其 构造 方法 中 的 主要 输入 参数 。 在 创建 Saver 
实例 时 ， 我 们 可 以 通过 var_1ist 参数 设置 想 要 存储 的 变量 集合 ， 默 认为 全 局 变量 集合 。 我 们 知 
道 变量 在 checkpoint 文件 中 是 以 < 交 量 名 , 张 量 值 > 的 键 值 对 形式 序列 化 存储 的 。 其 中 ， 变 量 名 的 
默认 值 为 变量 操作 的 名 称 , 不 便于 我 们 未 来 恢复 时 寻找 特定 变量 。 因 此 ,我 们 应 该 为 变量 重 命名 
一 个 有 实际 意义 的 名 称 。 需 要 注意 的 是 ，var_list 中 的 变量 不 能 出 现 重复 名 称 的 情况 ， 否 则 会 
导致 错误 。 在 数据 结构 方面 ，var_1list 支持 Python 字典 和 列表 两 种 类 型 。 


表 4-11 Saver 构造 方法 的 主要 输入 参数 


参数 名 称 功能 说 明 默 认 值 
var_list Saver 存储 的 变量 集合 全 局 变量 集合 
reshape 是 否 允 许 从 checkpoint 文件 中 恢复 时 改变 变量 形状 True 
sharded 是 否 将 checkpoint 文件 中 的 变量 轮 循 放置 在 所 有 设备 上 True 
max_to_keep 保留 最 近 的 检查 点 的 个 数 3 
restore_sequentially 是否 按 顺序 恢复 所 有 变量 ， 当 模型 较 大 时 顺序 恢复 可 以 降低 内 存 使 用 True 


创建 saver 实例 后 ， 如 果 想 要 存储 会 话 中 当前 时 刻 的 变量 值 ， 可 以 调用 saver.save 方法 。 
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使 用 saver 存储 变量 的 示例 如 下 : 


import tensorflow as tf 
# 创建 变量 W 
W = tf.Variable(6.06, name="'W') 
double = tf.multiply(2.6，W) 
# 创建 Saver 
saver = tf.train.Saver({'weights':W}) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
for i in range(4): 
sess.run(tf.assign_add(W, 1.06)) 
# 存储 变量 W 


saver.save(sess, '/tmp/summary/test.ckpt') 


我 们 把 每 一 次 循环 更 新 后 的 变量 W 都 存储 到 test.ckpt 文件 中 。 下 面 介 绍 如 何 从 checkpoint 文 


件 中 恢复 变量 W。 


的 变 


2. 恢复 模型 参数 
当 需 要 基于 某 个 checkpoint 文件 继续 训练 模型 时 ,应 该 使 用 Saver.restore 方法 恢复 文件 中 
量 值 ， 而 不 是 使 用 initializer 方法 为 它们 设置 初始 值 。Saver. restore 方法 也 需要 显 式 


设置 加 载 变量 值 的 会 话 和 存储 变量 的 checkpoint 文件 路 径 。 使 用 saver 恢复 test.ckpt 文件 中 变量 
W 的 示例 如 下 : 


import tensorflow as tf 
# 创建 变量 W 
W = tf.Variable(6.6，name='weights ') 
double = tf.multiply(2.6，W) 
# 创建 Saver 
saver = tf.train.Saver() 
with tf.Session() as sess: 
# 恢复 变量 WW 的 值 
saver.restore(sess, '/tmp/summary/test.ckpt') 
print('restored:W=%s' % sess.run(W)) 
for i in range(4): 
sess.run(tf.assign_add(W, 1.06)) 
print('W=%s, double=%s' % (sess.run(W), sess.run(double))) 
输出 : 
restored:W=4.6 
W=5.90，double=16.6 
W=6.9，double=12.6 
W=7.9，double=14.6 
W=8.9，double=16.6 


test.ckpt 文件 中 最 新 检查 点 存储 的 变量 W 的 值 为 4.0。 根 据 输出 结果 来 看 ,恢复 操作 执行 成 功 。 


另外 , 因为 我 们 已 将 变量 W 重 命名 为 weights, 所 以 恢复 时 必须 将 变量 W 的 名 称 设置 为 weights， 
否则 会 导致 错误 。 
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4.2.4 ”使 用 变量 作用 域 处 理 复杂 模型 


我 们 已 经 学 会 使 用 tf.Variable 类 创建 和 使 用 变量 ， 并 掌握 了 模型 参数 的 典型 使 用 流程 ， 
这 是 以 应 付 许多 和 常见 的 模型 训练 场景 。 但 是 ， 当 你 需要 编写 深度 神经 网 络 模 型 时 ,这 种 瀑布 流 式 
的 模型 定义 方法 就 无 法 轻松 应 对 了 。 因 此 , 本 节 将 介绍 如 何 使 用 更 灵活 和 具有 层次 化 结构 的 变量 
作用 域 来 帮助 我 们 处 理 更 加 复杂 的 模型 。 

1. tf.Variable 的 局 限 

下 面 以 图 像 识 别 的 CNN 网 络 为 例 说 明 这 个 问题 。 为 简单 起 见 , 假设 模型 仪 包含 两 层 卷 积 层 。 
模型 代码 如 下 所 示 : 


def my_image_filter(input_images): 

# 第 1 层 卷 积 

conv1 weights = tf.Variable(tf.random normal([5, 5, 32,32])， 
name="conv1 weights") 

conv1_ biases = tf.Variable(tf.zeros([32]), name="conv1 biases") 

conv1 = tf.nn.conv2d(input_ images, conv1 weights, 
strides=[1, 1, 1, 1], padding="'SAME') 

relul = tf.nn.relu(conv1 + conv1_ biases) 

# 第 2 层 卷 积 

conv2_ weights = tf.Variable(tf.random normal([5, 5, 32,32])， 
name="conv2_weights") 

conv2_biases = tf.Variable(tf.zeros([32]), name="conv2_ biases") 

conv2 = tf.nn.conv2d(relu1l, conv2 weights, 
strides=[1, 1, 1, 1], padding="'SAME') 

return tf.nn.relu(conv2 + conv2_biases) 


即使 是 两 层 的 神经 网 络 ， 模 型 仍然 包含 4 个 不 同 的 模型 参数 ,分别 是 conv1_weights、 
conv1_biases、conv2_weights 和 conv2_biases。 我 们 的 代码 复杂 度 将 随 着 网 络 层 数 不 断 增 加 。 
如 果 需 要 定义 100 层 的 深度 神经 网 络 ， 这 种 方法 的 问题 就 更 加 明显 。 

同时 ,这 种 方法 还 存在 模型 复 用 的 问题 。 假 设想 要 多 次 使 用 该 模型 ，tf.Variable 方法 在 每 
次 调用 模型 时 都 会 创建 一 份 变量 ， 但 它们 存储 的 是 相同 的 模型 参数 。 如 下 所 示 : 

# 第 一 次 调用 创建 4 个 变量 

result1 = my_image_filter(imagel1) 

# 第 二 次 调用 再 次 创建 4 个 变量 

result2 = my_image_filter(image2) 

随 着 模型 复 用 次 数 的 增加 ， 内 存 开销 也 将 不 断 上 升 ， 直 到 内 存 溢出 。 一 种 简单 的 解决 方法 是 
定义 一 个 存储 所 有 模型 参数 的 Python 字典 variables_dict ， 然 后 在 每 次 调用 时 都 使 用 
variables_dict 中 的 共享 参数 。 如 下 所 示 : 

variables dict = { 

"conv1 weights": tf.Variable(tf.random normal([5, 5, 32,，32])，, 
name="conv1 weights") 
"conv2 weights": tf.Variable(tf.random normal([5, 5, 32,32])， 


name="conv2_weights") 
"conv1 biases": tf.Variable(tf.zeros([32]), name="conv1_ biases") 
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"conv2_biases": tf.Variable(tf.zeros([32]), name="conv2_biases") 


} 


def my_image_ filter(input images, variables_dict): 
conv1 = tf.nn.conv2d(input_ images, variables dict["convi1 weights"], 
strides=[1, 1, 1, 1], padding="'SAME') 
relul = tf.nn.relu(conv1 + variables _ dict["conv1_ biases"]) 


conv2 = tf.nn.conv2d(relul, variables dict["conv2 weights"], 
strides=[1, 1, 1, 1], padding="'SAME') 
return tf.nn.relu(conv2 + variables dict["conv2 biases"]) 


# 两 次 调用 都 使 用 variables_dict 中 的 模型 参数 
result1 = my_image_filter(image1l, variables dict) 
result2 = my_image_filter(image2, variables dict) 


虽然 这 种 方法 看 似 解决 了 模型 复 用 的 问题 ， 但 是 它 破坏 了 模型 的 封装 性 ， 降 低 了 代码 的 可 
读 性 。 一 旦 网 络 结构 发 生变 化 ， 我 们 需要 分 别 修改 模型 方法 my_image_filter 和 参数 字典 
variables_dict， 以 及 调用 模型 的 代码 。 同 时 ， 该 方法 也 没有 解决 网 络 层 数 增加 带 来 的 代码 复 
杂 度 上 升 的 问题 。 


2. 变量 作用 域 的 好 处 


事实 上 ， 网 络 层 数 即使 增加 到 1000 层 ， 常 用 的 网 络 类 型 也 只 有 10 种 左右 。 一 个 很 自然 的 想 
法 是 编写 管理 各 类 网 络 的 方法 ,在 这 个 方法 内 部 定义 该 类 网 络 的 结构 和 人 参数。 同时， 该 方法 还 应 
该 在 复 用 模型 时 ， 人 允许 共享 该 层 的 模型 参数 。TensorFlow 的 变量 作用 域 机 制 以 一 种 优雅 的 、 轻 量 
级 的 、 非 侵入 式 的 方式 实现 了 上 述 想法 ， 有 效 地 解决 了 tf.variable 方法 不 能 应 付 的 两 个 问题 。 
TensorFlow 的 变量 作用 域 机 制 主 要 由 tf.get_variable 方法 和 tf.variable_scope 方法 实现 。 
前 者 负责 创建 或 获取 指定 名 称 的 变量 ， 后 者 负责 管理 传人 tf.get_variable 方法 的 变量 名 称 的 
名 字 空 间 。 
tf.get_variable 方法 的 主要 输入 参数 是 name 、shape 和 initializer， 分 别 表 示 变 量 的 
名 称 .形状 和 初始 化 方法 .区 别 在 于 tf.Vvariable 方法 直接 使 用 初始 值 initial_value, tf.get_ 
variable 方法 在 运行 时 根据 张 量 的 形状 动态 初始 化 变量 。 常 用 的 初始 化 方法 如 tf.constant_ 
initializer、tf.random_uniform initializer 和 tf.random normal initializer, 它们 分 
别 表 示 使 用 常量 值 、 区 间 值 和 符合 正 态 分 布 的 张 量 初始 化 变量 。 我 们 使 用 tf.get_variable 方 
法 定义 卷 积 层 方 法 ， 如 下 所 示 : 
def conv_relu(input, kernel_shape, bias_shape): 
# 创建 或 获取 名 叫 weights 的 变量 
weights = tf.get variable("weights", kernel_shape, 
initializer=tf.random normal_initializer()) 
# 创建 或 获取 名 叫 biases 的 变量 
biases = tf.get variable("biases", bias_shape, 
initializer=tf.constant_initializer(6.6)) 
conv = tf.nn.conv2d(input, weights, 


strides=[1, 1, 1, 1], padding='SAME') 
return tf.nn.relu(conv + biases) 


102 第 4 章 TensorFlow 数据 处 理 方 法 


变量 作用 域 的 使 用 
现在 ， 我 们 可 以 使 用 conv_relu 方法 创建 两 层 卷 积 的 图 像 识别 模型 ， 如 下 所 示 : 


def my_image_filter(input_images) : 
with tf.variable_scope("conv1"): 
# 创建 conv1/weights 和 conv1/biases 变量 
relul = conv_relu(input images, [5, 5, 32, 32], [32]) 
with tf.variable_scope("conv2"): 
# 创建 conv2/weights 和 conv2/biases 变量 
return conv_relu(relu1l, [5, 5, 32, 32], [32]) 


with 上 下 文中 定义 的 变量 都 会 加 上 tf.variable_scope 方法 中 定义 的 前 经， 这样 能 够 通过 
不 同 的 变量 作用 域 区 分 同类 网 络 的 不 同 层 参数 。 但 是， 这 还 不 能 解决 模型 复 用 的 问题 。 如 果 第 二 
次 调用 my_image_filter 方法 ，tf.get_variable 方法 就 会 抛 出 变量 已 存在 ， 无 法 再 定义 的 错 
误 。 如 下 所 示 : 


ValueError: Variable conv1/weights already exists, disallowed. Did you mean to set reuse=True 
in VarScope? 


因此 , 我 们 应 该 显 式 设置 tf.variable_scope 方法 的 reuse 参数 为 True， 表 示 共 享 该 作用 
域内 的 参数 。 当 第 二 次 调用 tf. get_variable 方法 时 ， 能 够 正确 返回 共享 参数 。 如 下 所 示 : 


def my_image_filter(input_images): 
# 共享 第 1 层 卷 积 的 所 有 参数 
with tf.variable_scope("conv1", reuse=True): 
relul = conv_relu(input images, [5, 5, 32, 32], [32]) 
# 共享 第 2 层 卷 积 的 所 有 参数 
with tf.variable_scope("conv2", reuse=True): 
return conv_relu(relu1, [5, 5, 32, 32], [32]) 


变量 作用 域 也 支持 嵌 套 定义 ， 如 下 所 示 : 


with tf.variable_scope("foo"): 
with tf.variable_scope("bar"): 
v = tf.get variable("v", [1]) 
assert v.name == "foo/bar/v: @" 


除了 使 用 tf.variable_scope 方法 共享 作用 域 下 的 模型 参数 外 ， 我 们 还 可 以 为 作用 域内 的 
所 有 变量 设置 初始 化 方法 ， 如 下 所 示 : 


with tf.variable scope("foo", initializer=tf.constant initializer(08.4)): 
v = tf.get variable("v", [1]) 
# 使 用 外 层 定义 的 初始 化 方法 
assert v.eval() == 6.4 
= tf.get variable("W", [1], initializer=tf.constant initializer(08.3)) 
# tf.get_variable 显 式 设置 的 初始 化 方法 徐 盖 作用 域 定 义 的 方法 
assert W.eval() == 6.3 
with tf.variable_scope("bar"): 
v = tf.get variable("v", [1]) 
# 继承 外 层 作用 域 的 初始 化 方法 
assert v.eval() == 6.4 
with tf.variable_ scope("baz", initializer=tf.constant_ initializer(0.2)): 
v = tf.get variable("v", [1]) 
# 使 用 优先 级 更 高 的 内 层 定义 的 初始 化 方法 
assert v.eval() == 6.2 
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在 处 理 结构 复杂 的 模型 时 ,恰当 地 使 用 变量 作用 域 可 以 简化 模型 的 定义 和 初始 化 工作 。 同 时 ， 
这 也 有 助 于 开发 更 加 层次 化 和 模块 化 的 模型 ， 提 升 代码 可 读 性 。 


4.3 ”命令 行 参数 
本 节 所 述 的 命令 行 参数 特 指 启动 TensorFlow 程序 时 输入 的 参数 。 按 照 功 能 不 同 ， 可 以 将 其 
分 为 模型 超 参 数 和 集群 参数 两 种 。 前 者 指 机 器 学 习 和 深度 学 习 模 型 中 的 框架 参数 ， 比 如 梯度 下 降 
的 学 习 率 和 批 数 据 大 小 等 ， 主 要 用 于 优化 模型 的 训练 精度 和 速度 。 后 者 指 运 行 TensorFlow 分 布 式 
任务 的 集群 配置 参数 , 如 参数 服务 器 主机 地 址 和 工作 服务 器 主机 地 址 等 , 主要 用 于 设置 TensorFlow 
集群 O 
本 节 介 绍 解析 命令 行 参数 的 两 种 主流 解决 方案 : argparse 和 tf.app.flags。 前 者 是 Python 


标准 库 中 功能 强大 的 命令 行 参数 解析 模块 , 也 是 广大 Python 用 户 的 优先 选择 。 后 者 是 TensorFlow 
基于 argparse 封装 的 工具 类 ， 特 点 是 简单 易 用 ， 新 手 也 能 快速 掌握 。 


4.3.1 使 用 argparse 解 析 命 令 行 参 数 


argparse 模块 是 Python 标准 库 提 供 的 用 于 命令 行 参数 与 选项 解析 的 模块 。 它 默认 会 从 sys.argv 
中 解析 出 我 们 在 程序 中 事先 定义 的 参数 ， 并 触发 对 应 的 动作 ( 如 保存 参数 、 统 计 参 数 次 数 和 回调 
函数 等 )。 相 比 用 户 手 动 编程 实现 命令 行 参数 的 解析 ， 使 用 argparse 模块 具有 以 下 4 个 优点 : 
口 同时 支持 定位 参数 和 关键 字 参 数 的 解析 ; 
口 自动 生成 使 用 方法 信息 ; 
口 自动 生成 帮助 信息 ; 
口 自动 抛 出 错误 提示 信息 。 
为 了 更 优雅 地 开发 基于 Python API 的 TensorFlow 应 用 程序 ,读者 有 必要 学 会 使 用 argparse 
模块 解析 命令 行 参 数 。 

argparse 模块 的 核心 是 参数 解析 器 ( ArgumentParser )， 简 称 解析 器 。 用 户 事先 需要 向 解析 
器 中 添加 想 要 解析 的 参数 。 在 程序 启动 时 ， 解 析 器 就 能 “ 按 图 索 对 ” 地 从 命令 行 中 解析 出 对 应 的 
参数 。 下 面 我 们 详细 介绍 使 用 argparse 模块 的 方法 。 该 模块 的 典型 使 用 流程 分 为 以 下 3 步 : 

(1) 创建 解析 器 ; 

(2) 添加 待 解析 参数 ; 

(3) 解析 命令 行 输入 的 参数 。 

下 面 简要 介绍 这 3 个 步骤 并 给 出 具体 的 案例 。 

1. 创建 解析 器 

首先 , 需要 创建 argparse 模块 中 的 解析 器 实例 。 它 的 构造 方法 的 主要 输入 参数 如 表 4-12 所 


104 第 4 章 TensorFlow 数据 处 理 方 法 


示 ， 该 方法 接受 多 个 输入 参数 ， 用 于 设置 程序 帮助 文本 的 描述 信息 。 其 中 ，usage 参数 是 程序 的 
使 用 方法 ，description 参数 是 程序 的 功能 说 明 。 


表 4-12 解析 器 构造 方法 的 主要 输入 参数 


参数 名 称 功能 说 明 
prog 程序 的 文件 名 
Usage 程序 使 用 方法 ， 默 认 根据 用 户 添加 的 参数 自动 生成 
description 程序 功能 说 明 
epilog 香 序 描述 末尾 的 补充 信息 
add_help 是 否 为 程序 添加 用 于 打印 帮助 信息 的 -h 和 --help 参数 
argument_default 所 有 参数 的 全 局 默认 值 


为 了 直观 地 展示 表 4-12 中 各 输入 参数 的 实际 效果 ， 我 们 在 Python 的 交互 式 编程 环境 中 介绍 
它们 的 使 用 方法 和 对 应 输出 。 首 先 ， 创 建 一 个 解析 器 ， 同 时 设置 相关 的 输入 参数 。 下 面 的 代码 展 
示 了 表 4-12 中 各 输入 参数 打印 时 的 真实 效果 : 


import argparse 


parser = argparse.ArgumentParser(prog='demo', description='A demo program '， 
epilog='The end of usage') 


parser.print_help() # 打印 程序 帮助 信息 

usage: demo [-h] # 程序 名 称 由 prog 参数 定义 

A demo program # 使 用 方法 由 description 参数 定义 
optional arguments: # 上 默认 为 程序 添加 -h 和 --help 参数 


-h, --help show this help message and exit 


The end of usage # 补充 信息 由 epilog 参数 定义 


因为 我 们 没有 显 式 设置 usage 参数 , 所 以 程序 的 使 用 方法 直接 基于 待 解 析 的 参数 生成 。 又 因 
为 没有 向 解析 器 中 添加 参数 ， 所 以 帮助 信息 中 只 有 -h 和 --help 参数 的 使 用 说 明 。 下 面 我 们 介 
绍 如 何 向 解析 器 中 添加 竺 解析 的 参数 。 

2. 添加 待 解 析 人 参数 

定义 待 解析 参数 ， 并 将 其 正确 添加 到 解析 器 是 最 重要 的 一 步 。 每 调用 一 次 解析 器 的 add_ 
argument 方法 ,我们 就 向 解析 右 中 新 添加 了 一 个 参数 。argparse 同时 支持 定位 参数 和 关键 字 参 
数 的 解析 。 成 功 解析 命令 行 参数 时 ， 可 以 触发 不 同 的 动作 ， 具 体 动作 由 add_argument 方法 的 
action 参数 指定 。 

add_argument 方法 的 原型 如 下 所 示 : 


ArgumentPparser.add argument(name or flags...[, action][, nargs][, const][, default][, type] 
[, choices][, required][, help][, metavar][, dest]) 
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表 4-13 列 出 了 该 方法 的 输入 参数 及 其 功能 说 明 。 
表 4-13 add_argument 方法 的 输入 参数 


参数 名 称 功能 说 明 
name or flags 名 称 或 标记 
action 解析 参数 成 功 时 触发 的 动作 
nargs 待 解析 参数 的 个 数 
const action 和 nargs 参数 可 能 使 用 的 常量 值 
default 待 解析 参数 的 默认 值 
type 解析 参数 后 保存 的 数据 类 型 
choices 参数 可 选 值 集合 ， 用 于 约束 枚 举 型 参数 
required 是 否 为 必须 从 输入 中 解析 的 参数 ， 默 认为 False 
help 参数 功能 说 明 
dest 解析 参数 后 保存 的 对 象 名 称 


这 里 重点 分 析 最 常用 的 两 个 参数 name or flags 和 action。 


D name or flags: 表示 定位 参数 的 名 称 或 关键 字 参 数 的 标记 ， 它 是 一 个 可 变 长 的 字符 串 列 
表 ( 长 度 至 少 为 1 )。 对 于 定位 参数 ， 命 令 行 参数 的 顺序 与 添加 参数 的 顺序 必须 保持 一 致 。 
对 于 关键 字 参 数 ， 没 有 顺序 要 求 ， 只 需要 正确 提供 关键 字 参 数 的 标记 (如 -t、--type ) 
即 可 。 它 们 类 似 于 Python 方法 中 经 常 使 用 的 默认 参数 ( *args ) 和 可 变 参 数 ( **kwargs)。 

口 action: 表示 解析 参数 成 功 时 触发 的 动作 ， 具 体 包括 以 下 7 种 。 


store: 保存 参数 值 ( 默认 动作 )。 
store_const: 保存 const 参数 设置 的 值 。 
store true/store false: 保存 布尔 值 ( True/False )。 
append: 将 参数 值 追 加 到 列表 。 
append_const: 将 const 参数 设置 的 值 追加 到 列表 。 
count: 为 关键 字 参 数 计数 。 
version: 打印 程序 的 版 本 信息 。 

需要 特别 说 明 的 是 : 程序 启动 时 ， 成功 解 析 参 数 的 前 提 是 已 向 解析 器 添加 过 参数 。 但 是 , 已 
添加 到 解析 器 的 参数 未 必 都 在 程序 启动 时 输入 参数 值 ,这 是 因为 我 们 可 以 使 用 default 为 参数 设 
置 默认 值 。 只 要 添加 参数 时 没有 设置 required=True, 就 可 以 自由 选择 是 否 在 程序 启动 时 输入 该 

现在 ， 我 们 使 用 add_argument 方法 向 第 一 步 中 定义 的 解析 器 添加 待 解析 参数 ， 代 码 如 下 
所 示 : 


parser.add_argument('name') 
parser.add argument('-a', '--age', type=int, required=True) 
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parser.add argument('-s', '- 
dest='myStatus') 


-status', choices=["'alpha', 'beta', 'released'], type=str, 


parser.add argument('-v', '--version', action='version', version='%(prog)s 1.0') 


parser.print_help() 
下! 输出 


usage: demo [-h] -a AGE [-s {alpha,beta,released}] [-v] name 


positional arguments: 


name # 定位 参数 

optional arguments : # 关键 字 参 数 
-h，--help show this help message and exit 
-a AGE, --age AGE # 必须 输入 的 参数 


-s {alpha,beta,released}, --status {alpha,beta,released} 


-V，--version show 


The end of usage 


program's version number and exit 


根据 帮助 信息 中 的 程序 使 用 方法 ,启动 程序 时 必须 输入 的 参数 是 name 和 -a (或 --age)。[] 
框 内 表示 可 选 参数 ， 即 使 用 户 启 动 程序 时 不 输入 ， 程 序 也 只 是 设置 其 为 None 而 不 会 报错 。 


3. 解析 参数 


解析 参数 就 是 按照 解析 器 中 的 参数 名 称 或 标记 , 将 参数 字符 串 先 分 类 再 匹配 的 过 程 。 当 匹配 
成 功 时 ,解析 器 会 将 参数 转换 为 当前 名 字 空 间 中 的 对 象 。 解 析 器 的 parse_args 方法 实现 了 解析 
参数 字符 串 的 功能 。 当 我 们 调用 parse_args 方法 时 ,解析 器 按照 add_argument 方法 中 定义 的 
参数 属性 ( 即 表 4-11 中 的 type 和 dest 字段 ) 创建 对 象 。 对 于 名 字 空 间 ， 读 者 可 以 将 其 理解 为 
一 个 Python 字典 。 字 上 典 中 存储 的 是 形 如 < 对 象 名 ， 参 数值 > 的 键 值 对 。 


结合 前 面 步骤， 现在 我 们 能 够 定义 一 个 完整 的 参数 解析 程序 demo.py， 如 下 所 示 : 


"udemo.py""" 
# -*- coding: utf-8 -*- 
import argparse 


parser = argparse.ArgumentParser(prog= 'demo' ，description="A demo program', epilog="'The end 


of usage') 


parser.add_argument('name') 


parser.add argument('-a', '--age', type=int, required=True) 
parser.add argument('-s', '--status', choices=['alpha', 'beta', 'released'], type=str, 


dest= 'myStatus ' ) 


args = parser.parse_args() # 将 名 字 空 间 赋 值 给 args 


print(args) # 输出 名 字 空 间 


parse_args 方法 支持 解析 多 种 格式 的 参数 字符 串 。 对 于 定位 参数 ,该 方法 并 无 格式 要 求 。 
对 于 关键 字 参 数 ， 除 了 第 二 步 中 展示 的 以 空格 分 隔 标记 和 参数 值 (如 -a AGE ) 的 格式 外 ， 
parse_args 方法 还 支持 以 等 号 分 隔 ( 如 -a=AGE ) 的 格式 和 不 分 隔 (如 -aAGE ) 的 格式 。 


现在 ,可 以 在 启动 demo.py 程 


序 时 输入 几 组 不 同 的 参数 字符 串 , 查看 它们 返回 的 名 字 空 间 和 
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解析 结果 。 如 下 所 示 : 


$ python demo.py Jony -a 23 

Namespace(age=23, myStatus=None, name='Jony') 

$ python demo.py Alice --age 16 

Namespace(age=10, myStatus=None, name='Alice') 

$ python demo.py Alice --age 16 -sbeta 

Namespace(age=10, myStatus="'beta', name='Alice') 

同时 ，parse_args 方法 也 会 对 参数 字符 串 做 输入 检查 ， 包 括 参 数 数据 类 型 是 否 有 效 、 关 键 
字 参 数 的 标记 是 否 正确 等 。 一 旦 发 现 输入 的 参数 字符 串 有 误 , 解析 器 立刻 抛 出 错误 信息 并 显示 正 
确 的 使 用 方法 。 示 例如 下 所 示 : 

# 无 效 数据 类 型 

$ python demo.py Alice -a 16.6 

usage: demo [-h] -a AGE [-s {alpha,beta,released}] [-v] name 

demo: error: argument -a/--age: invalid int value: '106.0' 

# 无 效 标记 

$ python demo.py Alice -a 16 --location hangzhou 

usage: demo [-h] -a AGE [-s {alpha,beta,released}] [-v] name 

demo: error: unrecognized arguments: --location hangzhou 

# 参数 个 数 错误 

$ python demo.py 

usage: demo [-h] -a AGE [-s {alpha,beta,released}] [-v] name 

demo: error: too few arguments 


在 某 些 情况 下 , 用户 输 入 的 命令 行 参数 可 能 是 给 级 联 调用 的 多 个 程序 使 用 的 。 为 此 , 解析 器 
实现 了 只 解析 预定 义 参数 字符 串 的 parse_known_args 方法 , 它 会 将 解析 器 中 未 添加 的 参数 保存 
在 一 个 字符 串 数组 中 。 该 方法 同时 返回 一 个 名 字 空 间 和 一 个 字符 串 数组 , 后 者 可 以 直接 传输 给 调 
用 链 中 的 后 续 程 序 来 解析 和 使 用 。 


我 们 将 demo.py 中 的 parse_args 方法 替换 为 parse_known_args 方法 ， 并 保存 为 new_demo.py 
文件 ， 代 码 如 下 所 示 : 


"""new_demo.py""" 

提 创建 解析 器 ,添加 参数 …… 

args，unparsed = parser.parse_known_args() # 将 解析 器 中 未 定义 的 参数 返回 给 unparsed 
print('args=%s, unparsed=%s' % (args, unparsed)) 


现在 , 输入 解析 器 中 未 定义 的 参数 location 和 对 应 值 hangzhou, 此 时 程序 的 输出 结果 如 下 
所 示 : 


$ _ python new_demo.py Alice -a 16 --location hangzhou 
args=Namespace(age=160, myStatus=None, name="'Alice'), unparsed=['--location', "hangzhou ] 


4. 最 佳 实践 

下 面 我 们 以 MNIST softmax 模型 为 例 , 展示 如 何在 TensorFlow 程序 中 使 用 argparse 模块 解 
析 命 令 行 参数 。 这 里 使 用 parse_known_args 方法 将 解析 成 功 的 参数 命名 空间 赋值 给 FLAGS。 命 
令 行 输入 的 数据 目录 参数 解析 后 ， 就 会 保存 在 FLAGS .data_dir 对 象 中 ; 未 解析 的 参数 保存 在 
unparsed 字符 串 数组 中 。 下 面 省 略 了 创建 模型 和 训练 模型 等 中 间 过 程 ， 仅 展示 命令 行 参数 解 
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析 相 关 的 代码 : 


""argparse mnist.py""" 
import argparse 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 


FLAGS = None 


def main(_) : 
# 导入 数据 
mnist = input_data.read_data_sets(FLAGS .data_dir，one_hot=True) 


# 省 略 中 间 步 又 


if _ name == "main _': 
parser = argparse.ArgumentParser() 
parser.add_argument('--data_dir'，type=str， 
default='/tmp/tensorflow/mnist/input_data', 
help='Directory for storing input data') 
FLAGS, unparsed = parser.parse_known_args() 


4.3.2 ”使 用 tf.app.flags 解 析 命令 行 参数 


虽然 argparse 模块 功能 强大 , 但 是 它 对 于 很 多 Python 新 手 来 说 可 能 比较 复杂 。 在 机 器 学 习 
和 深度 学 习 场 景 下 ， 一 般 的 程序 并 不 需要 如 此 灵活 而 完备 的 命令 行 参数 解析 机 制 。 为 此 ， 
TensorFlow 封装 了 一 套 基 于 argparse 的 参数 解析 模块 一 一 tf.app.flags (以 下 简称 flags )。 
该 模块 简化 了 argparse 中 解析 器 的 大 量 配 置 选项 ， 仅 实现 参数 解析 、 默 认 值 和 打印 帮助 信息 等 


基本 功能 。 如 果 说 argparse 是 灵活 多 样 可 配置 ， 那 么 flags 则 是 简单 直接 易 上 手 。 


使 用 flags 解析 参数 不 需要 创建 解析 器 ， 然 后 添加 参数 ， 再 调用 解析 参数 的 方法 。 相 反 , 用 
户 仅 需 调 用 flags 模块 中 定义 参数 的 方法 即 可 ， 其 他 工作 由 flags 模块 内 部 完成 。 下 面 我 们 介 


绍 使 用 flags 解析 参数 的 流程 和 方法 。 


首先 , 将 tf.app.flags 模块 的 引用 赋值 到 flags， 以 简化 编码 。 接 着 ， 调 用 flags 模块 中 
定义 字符 串 参数 的 方法 DEFINE_string。 它 的 3 个 输入 参数 分 别 表示 参数 名 称 、 默 认 值 和 使 用 方 
法 。 在 程序 启动 时 ， 如 果 我 们 定义 的 参数 解析 成 功 ， 那 么 它们 都 会 保存 在 flags .FLAGS 名 字 空 
间 中 。 为 了 进一步 简化 代码 形式 , 我们 为 flags .FLAGS 取 一 个 别名 ， 如 FLAGS。 如 果 在 程序 启动 
时 输入 了 正确 的 参数 字符 串 , 就 可 以 成 功 访问 FLAGs 名 字 空 间 中 的 参数 对 象 。 下 面 的 代码 展示 了 


这 个 流程 : 


"nflags demo.py""" 
import tensorflow as tf 


flags = tf.app.flags 
flags.DEFINE_string("data dir", "/tmp/mnist-data", 
"Directory for storing mnist data") 
FLAGS = flags .FLAGS # 将 解析 成 功 的 参数 保存 到 flags .FLAGS 名 字 空 间 中 
def main(_) : 


print(FLAGS .data_dir) 
if _name == "” 
tf.app.run() 


现在 ， 我 们 在 命令 行 中 测试 flags 解析 参数 的 实际 效果 。 命 令 及 输出 如 下 所 示 : 


$ python flags_demo.py 

/tmp/mnist-data 

$ python flags_demo.py --data dir /data/mnist 
/data/mnist 

# flags 为 程序 自动 生成 使 用 方法 和 帮助 信息 

$ python flags_demo.py -h 

usage: flags demo.py [-h] [--data_dir DATA_DIR] 


__main __": 


optional arguments: 
-h, --help show this help message and exit 
--data_dir DATA DIR Direcotry for storing mnist data 


表 4-14 列 出 了 flags 模块 定义 参数 的 方法 。 其 中 , DEFINE_bool 方法 是 DEFINE_boolean 方法 
的 别名 ,可 以 将 其 视 为 同一 个 方法 。 这 些 方法 的 输入 参数 一 致 , 均 为 flags_name、default_value 
和 docstring， 分 别 表示 参数 名 称 、 默 认 值 和 使 用 说 明 。 这 4 种 方法 的 内 部 实现 也 十 分 相似 ， 它 
们 均 调 用 了 flags 模块 内 的 _define_helper 方法 。 


表 4-14 flags 模块 定义 参数 的 方法 


方法 名 称 调用 样 例 
DEFINE float flags.DEFINE float("learning rate", 868.61, "Learning rate") 
DEFINE integer flags.DEFINE integer("batch size", 160, "Training batch size") 
DEFINE_string flags.DEFINE string("data dir", "/tmp/mnist-data","Directory for storing data") 


DEFINE boolean/DEFINE bool flags.DEFINE boolean("inference only", False, "Only perform inferencing" 


下 面 我 们 以 定义 字符 串 参数 的 DEFINE_string 方法 为 例 ， 说 明 这 类 方法 的 实现 原理 : 


import argparse as _argparse 
# 创建 全 局 解析 器 
_global parser = _argparse.ArgumentParser() 
# 定义 字符 串 参 数 方法 ， 该 方法 内 部 调用 了 _define_helper 方法 
def DEFINE_string(flag_name，default_value，docstring) : 
_define_helper(flag_name，default_value，docstring，str) 
# _define_helper 方法 是 对 解析 器 add_argument 方法 的 封装 
def _define helper(flag name, default value, docstring, flagtype): 
_global_parser.add argument('--' + flag_name, 
default=default_value, 
help=docstring, 
type=flagtype) 


从 _define_helper 方法 的 实现 来 看 ， 它 内 部 调用 add_argument 方法 添加 关键 字 参 数 。 并 
且 , 它 仅 设置 4 个 输入 参数 : flags、default、help 和 type。 其 中 , 前 3 个 参数 由 用 户 定义 ,type 
则 由 DEFINE_* 方法 自动 填充 。 使 用 flags 模块 解析 命令 行 参数 时 ， 不 需要 显 式 调用 parse_args 
或 parse_unknown_args 方法 解析 参数 ,因为 tf.app.run 方法 内 部 会 调用 flags.FLAGS. parse_ 
flags 方法 解析 命令 行 参数 。 


ll 
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下 面 我 们 解释 flags.FLAGS 的 实现 原理 。 它 是 _FlagValues 类 的 实例 ， 该 类 内 部 创建 了 保 

存 参数 对 象 的 字典 。 利 用 Python 的 反射 机 制 ， 程 序 内 部 将 解析 成 功 的 所 有 参数 都 设置 为 

_FlagValues 实例 的 属性 。 感 兴趣 的 读者 可 以 查看 tensorflow/python/platform/flags.py 文件 ,了解 
flags 模块 的 具体 实现 。 


当 我 们 启动 一 个 TensorFlow 程序 并 向 其 传人 命令 行 参数 时 ,程序 内 部 首先 创建 _FlagValues 
实例 ， 接 着 调用 _parse_flags 成 员 方法 解析 命令 行 参数 。 程 序 每 解析 一 个 DEFINE_* 方法 定义 
的 参数 ， 立 刻 将 其 加 入 _FlagValues 实例 内 部 的 参数 字典 。 最 终 ， 当 我 们 使 用 FLAGS 实例 的 属 
性 (如 FLAGS.data_dir ) 时 , 程序 内 部 调用 内 建 方法 _ getattr _ 返回 对 应 的 参数 对 象 。 相 关 
代码 如 下 : 

class _FlagValues(object): 

"" 会 局 关键 字 参 数 的 寄存 器 和 访问 器 """ 
def _ init (self): 

# 存储 参数 对 象 的 字典 

self. dict ['_ flags'] = {} 


# 判断 是 否 解 析 过 命令 行 参 数 的 标志 
self._ dict ['_ parsed'] = False 


def. _parse flags(self, args=None): 
'" 解 析 用 户 添加 的 关键 字 参 数 ， 剩 余 的 参数 直接 传递 给 其 他 程序 "' 
result, unparsed = _global parser.parse known_args(args=args) 
for flag_name, val in vars(result).items(): 
self._dict_ ['_ flags'][flag_ name] = val 
self._dict_['_ parsed'] = True 
return unparsed 


def _ getattr (self, name): 
" "根据 '--name' 关 键 字 取得 参数 值 """ 
if not self._ dict ['_parsed']: 
self._parse_flags() 
if name not in self._ dict ['_ flags']: 
raise AttributeError(name) 
return self._ dict ['_ flags'][name] 


def _ setattr (self, name, value): 
"" 设 置 '--name' 关 键 字 的 参数 值 """ 
if not self._ dict ['_ parsed']: 
self._parse_flags() 
self._ dict_['_ flags'][name] = value 


# 访问 全 局 关键 字 参 数 的 对 象 FLAGS 
FLAGS = _FlagValues() 
接着 , 我 们 使 用 flags 模块 重 写 上 一 节 的 最 佳 实践 ， 以 便 对 比 两 种 方法 的 代码 量 和 配置 选 
项 差异 : 
""flags_mnist.py""" 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 
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flags = tf.app.flags 

flags.DEFINE_string("data_dir", "/tmp/mnist-data", 
"Directory for storing mnist data") 

FLAGS = flags.FLAGS 


def main(_): 
# 导入 数据 
mnist = input_data.read data_ sets(FLAGS.data dir, one_hot=True) 
# 省 略 中 间 步 又 

if _name == ”main _": 


tf.app.run() 
对 比 可 以 发 现 , 使 用 flags 模块 只 需 在 文件 开头 部 分 定义 待 解析 参数 的 名 称 、 默 认 值 和 使 用 
方法 。 调 用 解析 成 功 的 参数 也 很 简单 ， 直 接 访问 保存 在 FLAGS 名 字 空 间 中 的 对 象 即 可 。 因 此 , 对 
于 没有 太 多 个 性 化 需求 和 多 样 化 配置 的 情况 ， 使 用 FLAGs 模块 解析 命令 行 参数 更 加 简单 明了 。 


针对 输入 数据 集 、 模 型 参数 和 命令 行 参数 这 三 类 不 同 的 数据 ，TensorFlow 提供 了 简单 易 用 的 
数据 处 理 模块 。 基 于 Reader 和 Queue 的 输入 流水 线 及 多 线程 并 发 机 制 提 升 了 大 数据 集 的 处 理 效 
率 ， 基 于 Constant 或 Variable 抽象 的 变量 预 加 载 则 可 以 降低 小 数据 集 计算 时 的 访 存 开销 。 模 
型 参数 的 创建 .初始 化 和 更 新 由 tf.Variable 类 实现 ,模型 参数 的 存储 和 恢复 由 tf.train.Saver 
类 实现 , 模型 参数 一 般 存 储 于 checkpoint 文 件 中 。 命令 行 参数 的 解析 有 两 种 解决 方案 : argparse 
和 tf.app.flags。Python 标准 库 的 argparse 模块 灵活 性 好 ， 功 能 强大 ， 广 受 软件 开发 者 喜爱 ; 
TensorFlow 内 置 的 tf.app.flags 模块 则 更 加 容易 上 手 ， 适 合算 法 研究 人 员 使 用 。 


TensorFlow 编程 框架 


经 过 前 面 的 学 习 ， 我 们 已 经 认识 了 TensorFlow 的 基础 抽象 和 对 应 的 数据 流 图 元 素 ， 并 初步 
掌握 了 TensorFlow 的 数据 处 理 方 式 和 简单 模型 开发 方法 。 读 者 心中 的 TensorFlow 知识 脉络 想必 
已 经 逐步 形成 。 在 此 基础 上 ， 本 章 介 绍 TensorFlow 的 编程 框架 ， 以 一 种 更 加 整体 而 系统 的 视角 
串联 前 述 概 述 ， 帮 助 读者 理解 TensorFlow 应 用 层 API 及 上 层 运行 时 组 件 的 工作 原理 ， 从 而 实现 
正确 使 用 框架 与 工具 、 熟 练 开 发 应 用 程序 的 目标 。 依 据 程 序 运行 时 形态 的 差异 ， 本 章 将 分 述 
TensorFlow 单机 程序 和 分 布 式 程序 的 编程 框架 ,以 两 类 编程 框架 的 关键 工作 步骤 为 主线 , 深入 剖 
析 其 设计 思想 ， 重 点 讲解 数据 并 行 、 同 步 和 异步 训练 ， 以 及 长 周期 训练 管理 等 机 制 。 


5.1 单机 程序 编程 框架 


本 节 中 , 我 们 就 来 介绍 一 下 单机 程序 的 编程 框架 。 这 里 从 代码 开发 视角 切入 , 将 TensorFlow 
数据 流 图 中 的 各 种 元 素 和 概念 映射 到 一 个 典型 的 单机 程序 一 一 MNIST softmax 模型 的 训练 与 推理 
程序 。 


5.1.1 概述 


单机 程序 是 指 启动 和 运行 都 仅 在 一 台 机 器 的 一 个 进程 中 完成 的 程序 。 这 种 程序 的 模型 参数 只 
在 本 地 CPU/GPU 的 内 存 之 间 传 输 , 没有 网 络 通信 的 开销 , 非常 适合 参数 不 多 、 计 算 量 小 的 模型 。 
相 比 分 布 式 程序 ， 单 机 程序 的 设计 更 加 简单 ， 编 程 难度 更 低 ， 有 利于 新 手 快 速 入 门 。 
图 5-1 展示 了 使 用 TensorFlow 单机 程序 编程 框架 的 关键 步骤 ,以 开发 流程 中 操作 的 核心 对 象 
为 依据 ,编写 单机 程序 主要 分 为 创建 单机 数据 流 图 ( Graph ) 和 创建 单机 会 话 (DirectSession) 
两 步 。 
口 创建 单机 数据 流 图 〈 模 型”。 数 据 流 图 主要 由 3 类 节点 组 成 ， 分 别 是 表示 输入 数据 集 的 
占 位 符 (placeholder ) 、 保 存 模型 参数 的 变量 (Variable ) ， 以 及 前 向 图 和 后 向 图 中 的 
计算 操作 ( operation ) 。 
口 创建 并 运行 单机 会 话 。 会 话 中 执行 的 操作 具体 包括 变量 的 初始 化 操作 ( init_op ) 、 模 型 
的 恢复 和 保存 操作 、 单 步 推理 ( inference_op ) 和 单 步 训 练 (train_op ) 操作 等 。 
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1 3 类 数据 载体 : Tensor，Variable，FLAGS 


人 


图 5-1 使 用 单机 程序 编程 框架 的 关键 步骤 


单机 程序 的 计算 形态 主要 分 为 推理 ( 预测 ) 态 和 训练 态 。 前 者 仅 执行 推理 操作 ， 计 算得 到 推 
晶 或 预测 结果 ; 后 者 依次 执行 前 向 图 的 推理 计算 和 后 向 图 的 梯度 计算 ， 并 完成 模型 参数 的 更 新 。 

TensorFlow 单机 程序 处 理 的 数据 主要 分 为 3 类 ， 分 别 是 来 自 于 文件 系统 的 输入 数据 集 、 从 
checkpoint 文件 恢复 的 模型 参数 和 从 命令 行 解析 的 模型 超 参 数 。 在 数据 流 图 中 ， 它 们 分 别 使 用 张 
量 、 变 量 和 FLAGS 名 字 空 间 来 保存 。 在 会 话 中 ,它们 作为 输入 数据 分 别传 输 给 操作 、saver 和 优 
化 器 这 3 类 数据 消费 者 。 其 中 ， 操 作 定义 了 张 量 间 的 运算 ， 如 和 矩阵 相 乘 、 激 活 函 数 、 神 经 网 络 层 
等 。 操 作 之 间 有 可 能 存在 依赖 控制 ,用 于 管理 多 个 操作 的 逻辑 先后 关系 ， 确 保 以 正确 的 时 序 执行 
各 个 操作 。Saver 负责 管理 checkpoint 文件 。 它 能 够 从 checkpoint 文件 中 恢复 模型 参数 到 变量 ， 
或 者 将 变量 中 的 模型 参数 保存 到 checkpoint 文件 。 优 化 器 负责 计算 梯度 和 更 新 模型 参数 。 和 常见 的 
优化 器 有 SGD 、Adam 、Adagrad 、Adadelta 等 。 表 5-1 对 比 了 TensorFlow 单机 程序 处 理 的 3 类 数 
据 的 类 别 、 来 源 、 载 体 和 消费 者 间 的 映射 关系 。 


表 5-1 TensorFlow 单机 程序 处 理 的 3 类 数据 


已 


数据 类 别 数据 来 源 数据 载体 数据 消费 者 
输入 数据 集 文件 系统 张 量 操作 
模型 参数 checkpoint 文件 变量 Saver 


模型 超 参 数 命令 行 FLAGS 名 字 空 间 优化 融 
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5.1.2 ”创建 单机 数据 流 图 


对 于 深度 学 习 和 机 器 学 习 程 序 来 说 , 模型 是 程序 的 主体 。 模 型 本 身 由 数据 流 图 中 的 节点 组 成 ， 
节点 具体 包括 表示 输入 数据 集 的 占 位 符 、 保 存 模型 参数 的 变量 , 以 及 定义 前 向 图 和 后 向 图 的 计算 
操作 等 。 创 建 数据 流 图 是 使 用 TensorFlow 单机 程序 编程 框架 的 第 一 个 关键 步 又。 下 面 我 们 介绍 
一 下 具体 步骤 和 方法 。 


TensorFlow 内 部 会 为 当前 程序 的 上 下 文 维护 一 个 默认 的 数据 流 图 实例 。 同时 , 它 也 允许 用 户 
在 程序 中 显 式 创建 多 个 数据 流 图 实例 。 如 果 和 希望 显 式 创建 数据 流 图 , 并 指定 特定 的 数据 流 图 为 当 
前 上 下 文 的 默认 数据 流 图 ， 那 么 可 以 使 用 以 下 代码 实现 : 


# 创建 数据 流 图 81 

g1 = tf.Graph() 

with g1.as_default(): 
# 在 该 上 下 文中 ， 默 认 使 用 数据 流 图 g1 
a = tf.Variable(6，name='a') 
# 断言 变量 a 被 添加 到 数据 流 图 g1 中 
assert a.graph is g1 

# 创建 数据 流 图 g2 

with tf.Graph().as_default() as g2: 
# 在 该 上 下 文中 ， 默 认 使 用 数据 流 图 g2 
b = tf.Variable(6，name='b ') 
# 断言 变量 b 被 添加 到 数据 流 图 g2 中 
assert b.graph is g2 


这 里 tf.Graph 方法 返回 新 建 的 数据 流 图 实例 ，as_default 成 员 方 法 将 自身 设置 为 当前 上 
下 文 的 默认 数据 流 图 。 用 户 可 以 使 用 with 语句 管理 不 同 数 据 流 图 实例 的 上 下 文 环境 。 所 有 操作 
实例 都 实现 了 graph 成 员 方 法 , 用 于 获取 当前 操作 所 属 的 数据 流 图 。 因 此 , 我 们 可 以 使 用 断言 语 
句 判断 变量 a 和 b 是 否 被 分 别 添加 到 了 数据 流 图 g1 和 g2 中 。 


如 果 用 户 没有 显 式 创建 数据 流 图 实例 ， 那 么 程序 使 用 的 将 是 TensorFlow 内 部 创建 的 默认 数 
据 流 图 实例 。 在 这 种 情况 下 , 用 户 定义 的 所 有 操作 都 会 被 添加 到 默认 实例 中 。 下 面 展示 的 MNIST 
softmax 模型 的 数据 流 图 创建 代码 即 为 这 种 情况 : 

"""5.1 best practice.py""" 

# -*- coding: utf-8 -*- 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 


flags = tf.app.flags 

flags.DEFINE_string("data_ dir", "/tmp/mnist-data", 
"Directory for storing mnist data") 

flags .DEFINE_float("learning rate", 8.5, "Learning rate") 

FLAGS = flags.FLAGS 


def main(_) : 
# 创建 MNIST 数据 集 实例 
mnist = input_ data.read data_ sets(FLAGS.data dir, one_hot=True) 
# 创建 模型 
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x = tf.placeholder(tf.float32, [None, 784]) # 图 像 数 据 
W = tf.Variable(tf.zeros([784, 10])) # 模型 权重 
b = tf.Variable(tf.zeros([16])) # 模型 偏 置 
y = tf.matmul(x, W) + b # 推理 操作 
y 


= tf.placeholder(tf.float32, [None, 10]) # 图 像 标 签 

# 使 用 交叉 粒 作 为 损失 值 

cross_entropy = tf.reduce_mean( 
tf.nn.softmax_cross_entropy with logits(labels=y_, logits=y)) 

# 创建 梯度 下 降 优 化 器 

optimizer = tf.train.GradientDescentOptimizer(FLAGS.1learning_rate) 

# 定义 单 步 训 练 操作 


train_op = optimizer.minimize(cross_entropy) 
这 段 代 码 的 工作 流程 简 述 如 下 。 
首先 ， 从 命令 行 解析 MNIST 数据 目录 参数 ， 并 将 其 保存 在 FLAGS 名 字 空 间 中 。 后 续 代 码 可 
以 通过 FLAGS.data_dir 属性 获取 这 一 参数 。 


然后 ， 从 数据 目录 中 读 取 MNIST 数据 集 。 深 度 学 习 和 机 器 学 习 算 法 使 用 的 数据 集 通 常 可 以 
根据 用 途 划分 为 训练 集 、 验 证 集 和 测试 集 。 在 TensorFlow 附带 的 数据 集 处 理 代 码 中 ，MMNIST 数据 
集 的 分 类 和 保存 分 别 由 tensorflow/contrib/learn/python/learn/datasets/mnist.py 文件 定义 的 read_data_sets 
方法 和 DataSet 类 实现 。 其 中 ，read_data_sets 方法 负责 解析 MNIST 数据 集 ， 并 将 其 划分 为 
训练 集 、 验 证 集 和 测试 集 , 分 别 保存 到 各 自 的 Dataset 实例 中 。DataSet 类 提供 next_batch 成 
员 方 法 。 当 用 户 在 会 话 中 向 占 位 符 填充 数据 时 ,可 以 通过 这 一 方法 从 DataSet 实例 中 获取 批 数据 。 
为 了 统一 管理 MNIST 的 3 个 数据 集 ，tensorflow/contrib/learn/python/learn/datasets/base.py 文件 利 
用 namedtuple 定 义 了 Datasets 元 组 :Datasets = collections.namedtuple('Datasets', ['train', 
'validation'，'test'])。 本 例 中 , read_data_sets 方法 返回 一 个 名 为 mnist 的 Datasets 元 组 ， 
用 户 可 以 调用 mnist.train 成 员 访 问 MNIST 训练 集 。 


接着 , 我们 依次 创建 手写 体 数字 图 像 的 占 位 符 、 保 存 模型 权重 和 偏 置 的 变量 、 前 向 图 的 推理 
操作 、 手 写 体 数字 标签 的 占 位 符 、 用 作 损 失 值 的 交叉 焙 ， 以 及 梯度 下 降 优化 器 。 其 中 ， 手写体 数 
字 标 签 是 长 度 为 10 的 one-hot 向 量 , 它 的 10 个 分 量 分 别 对 应 0~9 这 10 个 数字 。10 个 分 量 中 只 有 一 
个 值 为 1, 其 余 值 为 0。 值 为 1 的 分 量 的 下 标 即 是 对 应 的 手写 体 数字 。 例 如 , [6,0,0,0,0,0,0,0,0,1] 
表示 该 数字 为 9。 


最 后 , 将 极 小 化 损失 值 的 计算 操作 定义 为 单 步 训练 操作 。 训练 操作 汇聚 了 模型 单 步 训练 的 所 
有 操作 , 我 们 通常 将 其 命名 为 train_op 或 train_step。 上 述 步 又 中 的 各 个 操作 都 是 训练 操作 的 
前 置 依赖 。 如 果 我 们 已 经 得 到 一 个 训练 好 的 模型 ， 就 不 需要 定义 交叉 焙 和 优化 器 ， 直 接 执行 推理 
操作 即 可 。 推 理 操 作 汇 聚 了 模型 单 步 推理 的 所 有 操作 ， 我 们 通常 将 其 命名 为 inference_op 或 
inference_step。 因 为 推理 操作 的 输出 张 量 正好 是 模型 输出 , 所 以 也 可 以 将 其 直接 命名 为 y。 需 
要 注意 的 是 ， 上 面 代码 创建 的 推理 操作 y = matmul(x,W)+b 并 不 是 MNIST softmax 模型 的 最 终 
输出 ，MNIST softmax 模型 的 完整 的 推理 操作 应 该 是 y = softmax(matmul(x,W)+b)。 为 了 提升 
计算 效率 , 我 们 可 以 使 用 tf.nn.softmax_cross_entropy_with_logits 操作 , 将 softmax 函数 
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合并 到 交 义 灼 归 约 计算 中 ， 代 码 如 下 所 示 : 


cross_entropy = tf.reduce mean( 
tf.nn.softmax_cross_entropy with logits(labels=y_, logits=y)) 


如 果 不 希 望 合 并 softmax 函数 ， 也 可 以 分 别 定 义 推理 操作 和 交叉 炉 ， 相 关 代 码 如 下 : 


y = tf.nn.softmax(tf.matmul(x, W) + b) 

y_ = tf.placeholder(tf.float32, [None, 106]) 

cross_entropy = tf.reduce mean(-tf.reduce sum(y_ * tf.log(tf.nn.softmax(y)), 
reduction_indices=[1])) 


现在 我 们 已 经 学 会 了 创建 数据 流 图 的 方法 。 下 面 我 们 将 介绍 如 何在 会 话 中 执行 训练 和 推理 
操作 。 


5.1.3 ”创建 并 运行 单机 会 话 


这 是 使 用 TensorFlow 单机 程序 编程 框架 的 第 二 个 关键 步骤 ， 涉 及 的 操作 包括 变量 初始 化 操 
作 、 模 型 的 恢复 和 保存 操作 、 单 步 推 理 和 单 步 训 练 操作 等 。 为 了 执行 数据 流 图 中 的 操作 ， 首 先 需 
要 创建 单机 会 话 实 例 。 

根据 运行 时 形态 的 不 同 ,会 话 分 为 单机 会 话 ( Directsession ) 和 分 布 式 会 话 ( GrpcSeesion )， 
两 者 都 是 基于 Basesession 类 实现 的 。 在 BaseSession 类 的 构造 方法 中 ， 创 建 会 话 实例 是 通过 
调用 CAPI 定 义 的 TF_NewSession 方法 实现 的 。 下 面 是 tensorflow/python/client/session.py 文件 定 
义 的 BaseSession 类 构造 方法 的 代码 ， 我 们 摘 取 出 创建 会 话 的 关键 部 分 : 


from tensorflow.python import pywrap_tensorflow as tf_session 


class BaseSession(SessionInterface) : 
def _ init (self, target='', graph=None, config=None): 
# 这 里 省 略 了 数据 流 图 加 载 和 会 话 配 置 过 程 
self._ session = None 
opts = tf_session.TF_NewSessionOptions(target=self. target, config=config) 
try: 
with errors.raise exception on not ok_status() as status: 
# 使 用 C API 中 定义 的 TF_NewSession 方法 创建 实例 
self._session = tf_session.TF_NewSession(opts, status) 
finally: 
tf_session.TF_DeleteSessionOptions(opts) 


在 创建 会 话 时 ，C API 定义 的 统一 人口 方法 不 能 感知 上 层 Python API 中 会 话 类 的 类 型 。 为 了 
区 分 单机 会 话 和 分 布 式 会 话 ，BaseSession 类 的 构造 方法 需要 将 输入 参数 target 传人 C API 的 
TF_NewSession 方法 。 如果 target 为 None( 默认 值 ) 或 空 字 符 串 , 则 创建 单机 会 话 ; 如 果 target 
被 赋予 gRPC 服务 的 URL， 则 创建 分 布 式 会 话 。 因 此 ， 之 前 创建 单机 会 话 时 ， 不 对 target 参数 
进行 赋值 。 

下 面 我 们 以 将 上 一 节 介 绍 的 MNIST softmax 模型 为 例 ， 展 示 单 机 会 话 的 创建 流程 。 首 先 , 将 
MNIST softmax 模型 的 数据 流 图 加 载 到 新 建 的 单机 会 话 中 。 接 着 ， 初 始 化 全 局 变量 ， 设 置 最 大 训 
练 步 数 为 1000 步 。 在 每 一 步 迭 代 训 练 时 , 都 从 预 处 理 的 MNIST 数据 集中 取出 一 批 手 写 体 图 像 数 
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据 batch_xs 和 标签 数据 batch_ys ， 并 分 别 填充 到 对 应 的 占 位 符 x 和 y_ 中 。 下 面 的 代码 展示 了 
在 会 话 中 不 断 执行 单 步 训 练 操作 的 详细 过 程 : 


# 创建 Saver 
saver = tf.train.Saver() 
sess = tf.InteractiveSession() 
tf.global_variables_ initializer().run() 
# 最 大 训练 步 数 
for i in range(1666) : 
batch_xs，batch_ ys = mnist.train.next_batch(166) 
sess.run(train_step, feed dict={x: batch xs, y_: batch ys}) 
# 每 168 步 保存 一 次 模型 参数 
if li%166 = 0: 
saver.save(sess, 'mnist.ckpt') 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
print('acc=%s' % sess.run(accuracy, 
feed dict={x: mnist.test.images, 
y_: mnist.test.1abels})) 


当 我 们 调用 sess.run(train_step，feed _dict={x: batch_xs，y_: batch_ys}) 语句 执 
行 单 步 训 练 操作 时 , 程序 内 部 首先 提取 单 步 训 练 操作 依赖 的 所 有 前 置 操作 。 这 些 操作 的 节点 共同 
组 成 一 幅 子 图 。 然 后 , 程序 会 将 子 图 中 的 计算 节点 、 存 储 节 点 和 数据 节点 按照 各 自 的 执行 设备 分 
类 ,相同 设备 上 的 节点 组 成 了 一 幅 局 部 图 。 每 个 设备 上 的 局 部 图 在 实际 执行 时 , 根据 节点 间 的 依 
赖 关系 将 各 个 节点 有 序 地 加 载 到 设备 上 执行 。 对 于 单机 程序 来 说 ， 相 同 机 器 上 不 同 编号 的 CPU 
或 GPU 就 是 不 同 的 设备 ， 我 们 可 以 在 创建 节点 时 指定 执行 该 节点 的 设备 。 下 面 的 代码 展示 了 如 
何 使 用 tf.device 方法 指定 节点 的 执行 设备 : 
# 在 8 号 CPU 上 执行 的 存储 节点 
with tf.device("/cpu:0"): 
v = tf.Variable(...) 
# 在 8 号 GPU 上 执行 的 计算 节点 
with tf.device("/gpu:0"): 
z = tf.matmul(x, y) 
同时 ,tf.device 方法 也 支持 向 套 使 用 。 如 果 我 们 希望 把 计算 量 小 的 存储 节点 和 数据 节点 放 
在 CPU 上 执行 ， 把 计算 量 大 的 计算 节点 放 在 GPU 上 执行 ,那么 可 以 参考 下 面 的 代码 实现 : 
with tf.device("/cpu:0"): 
x = tf.placeholder(...) 
w = tf.Variable(...) 
b = tf.Variable(...) 
with tf.device("/gpu:0"): 


y = tf.matmul(w,x) + b 
y_ = tf.placeholder(...) 


[ 


本 例 中 ,我们 没有 使 用 之 前 保存 的 模型 参数 继续 训练 ,而 是 直接 调用 tf.global_variables_ 
initilizer 方法 初始 化 所 有 的 模型 参数 。 如 果 想 要 从 checkpoint 文件 中 恢复 模型 参数 继续 训练 ， 
还 需要 在 训练 开始 前 调用 saver 对 象 的 restore 成 员 方 法 恢复 模型 参数 值 。 为 此 添加 的 代码 如 
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下 所 示 : 


saver.restore(sess, 'mnist.ckpt') 
for i in range(1666) : 
# 训练 模型 


在 restore 方法 内 部 ， 我 们 调用 了 变量 的 assign 方法 ， 继 而 更 新 了 变量 中 的 模型 参数 值 。 
随 着 迭代 训练 步 数 的 增加 ,损失 值 不 断 减 小 , 模型 在 训练 集 上 预测 的 准确 率 也 会 逐渐 上 升 。 训 练 
结束 后 , 我 们 需要 评估 模型 是 否 在 训练 数据 集 上 过 拟 合 。 于 是 ,我 们 新 建 正确 预测 个 数 ( correct_ 
prediction ) 和 准确 率 ( accuracy ) 这 两 个 操作 ， 然 后 计算 模型 在 测试 数据 集 上 的 真实 值 和 推 
理 值 的 差异 ， 以 便 考 查 模 型 在 测试 数据 集 上 的 准确 率 ， 检 验 模 型 的 泛 化 能 力 。 程 序 运 行 后 ， 得 到 
下 面 展示 的 输出 结果 : 


Extracting /tmp/mnist-data/train-images-idx3-ubyte.gz 
Extracting /tmp/mnist-data/train-labels-idx1-ubyte.gz 
Extracting /tmp/mnist-data/t1i@k-images-idx3-ubyte.gz 
Extracting /tmp/mnist-data/t1i@k-labels-idx1-ubyte.gz 
acc=6.9161 


可 以 看 出 ，MNIST softmax 模型 在 测试 集 上 获得 了 91.61% 的 准确 率 。 


通过 编程 实践 ， 我 们 深入 理解 了 TensorFlow 单机 程序 开发 流程 中 的 两 个 核心 对 象 一 一 数据 
流 图 与 会 话 。 前 者 是 算法 模型 的 载体 , 后 者 为 模型 提供 了 运行 环境 。 如 果 读 者 想 要 独立 实现 单机 
运行 的 深度 学 习 和 机 器 学 习 模 型 ,那么 可 以 参考 本 节 的 编程 框架 进行 设计 和 开发 。 


5.2 分布 式 程序 编程 框架 


TensorFlow 的 细 粒 度 API 为 分 布 式 程序 的 设计 与 开发 提供 了 高 度 的 灵活 性 , 用 户 可 以 将 不 同 
的 分 布 式 架构 应 用 于 TensorFlow 程序 。PS-worker 是 一 种 经 典 的 分 布 式 架构 ， 它 在 大 规模 分 布 式 
机 带 学 习 、 深 度 学 习 系 统领 域 得 到 了 广泛 的 应 用 。TensorFlow 提供 对 PS-worker 架构 支持 ， 并 将 
其 作为 其 推荐 的 、 标 准 的 分 布 式 编程 框架 。 

本 节 主 要 介绍 TensorFlow 分 布 式 程序 的 编程 框架 ， 以 流程 图 的 形式 展现 分 布 式 程序 的 关键 
步骤 。 目前, 大 多 数 分 布 式 程序 均 采 用 数据 并 行 的 模式 加 速 模 型 训练 ，TensorFlow 也 为 此 专门 设 
计 了 具有 高 可 用 性 的 同步 优化 器 ， 以 便 用 户 快速 构建 分 布 式 程序 。TensorFlow 提供 的 Supervisor 
以 灵活 易 用 的 方式 提升 了 模型 训练 过 程 的 健壮 性 , 同时 简化 了 模型 微调 和 重 训练 的 流程 。 本 节理 
论 与 实践 相 结 合 ， 由 浅 入 深 地 引导 读者 掌握 TensorFlow 分 布 式 程序 编程 框架 的 设计 思想 、 工 作 
流程 和 使 用 方法 。 


5.2.1 PS-worker 架 构 概 述 


PS-worker 架构 有 效 解 决 了 大 规模 参数 在 分 布 式 存储 和 更 新 时 的 一 致 性 问题 ， 兼 具 通 用 性 和 
高 效 性 。 典 型 的 PS-worker 架构 如 图 5-2 所 示 , 所 有 模型 参数 唯一 地 存储 在 PS 的 内 存 中 。 当 模型 
参数 规模 超过 一 台 服 务 器 的 内 存 大 小 时 ， 则 需要 分 布 式 地 存储 在 多 个 PS 中 。 最 简单 的 分 布 式 存 
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储 策略 为 循环 (round-robin ): 


按照 用 户 定义 模型 参数 的 顺序 ， 将 参数 依次 循环 保存 到 各 PS 中 ， 


尽 可 能 保证 每 个 PS 存储 的 参数 个 数 相等 。 假 如 模型 一 共有 9 个 参数 ， 按 照 循环 策略 分 布 式 存储 
在 3 个 PS 中， 则 各 PS 存储 的 参数 分 别 是 [1, 4, 7]、[2, 5, 8] 和 [3, 6, 9]。 模 型 训练 过 程 中 的 主要 


计算 一 一 前 向 图 推理 计算 和 后 向 图 梯度 计算 均 由 worker 完成 。 训 练 数据 一 般 存储 在 共享 文件 系 


统 或 分 布 式 文件 系统 中 〈 注 : 


本 节 仅 讨论 数据 并 行 训练 模式 ， 即 各 worker 数据 流 图 的 拓扑 结构 


相同 ， 填 充 的 训练 数据 不 同 )。 


训练 数据 


worker 0 


workern 
avg(got+.…… +g,) 


图 5-2 ”典型 PS-worker 架构 训练 分 布 式 模 型 的 流程 


为 简单 起 见 ， 假 设 一 个 PS 能 够 存储 所 有 模型 参数 。 在 这 种 情况 下 ， 使 用 PS-worker 架构 训 


练 分 布 式 模型 的 流程 如 下 。 


(1) pull: 各 worker 根据 数据 流 图 的 拓扑 结构 ， 从 PS 拉 取 最 新 的 模型 参数 。 
(2) feed: 各 worker 按照 一 定 的 规则 填充 不 同 批 次 的 批 数 据 。 
(3) compute: 各 worker 使 用 相同 的 模型 参数 和 不 同 的 批 数据 计算 梯度 ， 得 出 不 同 的 梯度 值 。 


(4) push: 各 worker 将 第 


(3) 步 中 计算 得 到 的 梯度 值 推送 到 PS。 


(5) update: PS 汇总 来 自 n 个 worker 的 总 计 份 梯度 值 ， 求 出 梯度 平均 值 后 更 新 模型 参数 。 
分 布 式 模型 的 单 步 训 练 主要 由 这 5 步 构 成 。 训练 分 布 式 模型 的 过 程 就 是 不 断 循环 执行 这 5 步 


的 过 程 ， 直 到 达到 最 大 训练 步 数 或 损失 值 小 于 赣 值 。 


PS-worker 架构 的 核心 思 


想 是 将 模型 和 训练 解 耦合 。 它 将 一 个 模型 的 训练 过 程 分 为 两 类 作业 


(job ): 一 类 是 模型 相关 的 作业 ， 包 括 模型 参数 的 存储 、 分 发 、 汇 总 、 更 新 ， 由 PS 执行 ; 另 一 类 


是 训练 相关 的 作业 ， 包 括 推 天 


计算 和 梯度 计算 等 ， 由 worker 执行 。 同 类 作业 内 部 可 以 包含 多 个 
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并 行 执行 的 任务 ( task )。 每 个 任务 的 工作 流程 相同 ， 但 处 理 的 数据 不 同 。 


5.2.2 分布 式 程序 编程 框架 概述 


分 布 式 程序 是 指 由 多 个 进程 协同 执行 的 程序 。 在 TensorFlow 的 分 布 式 编程 框架 中 ， 每 个 PS 


和 worker 都 
以 开发 流程 中 操作 的 核心 对 象 为 依据 ， 


单独 的 进程 实现 。 图 5-3 展示 了 使 用 TensorFlow 分 布 式 程序 编 


程 框架 的 关键 步骤 。 
编写 分 布 式 程序 主要 分 为 创建 集群 (Cluster )、 创建 分 布 


式 数据 流 图 (Graph )， 以 及 创建 并 运行 分 布 式 会 话 (GrpcSsession ) 这 3 个 步骤 。 


各 个 服务 。 
口 创建 分 布 式 数据 流 图 。 数 据 流 


的 变量 、 


口 创建 集群 。 包 括 定义 集群 中 所 有 进程 对 应 的 服务 占 主 机 名 (或 人 P 地 址 ) 和 端口 ， 并 启动 


图 上 的 节点 包括 表示 输入 数据 集 的 占 位 符 、 保 存 模 型 参数 


前 向 图 和 后 向 图 的 计算 操作 ， 以 及 专门 为 分 布 式 模型 设计 的 同步 优化 器 和 同步 


标记 队列 (sync_token_queue ) 的 初始 化 操作 (sync_init op ) 。 


口 创建 并 运行 


分 布 式 会 话 。 涉 及 使 用 模型 训练 管理 组 件 ( supervisor ) 创建 分 布 式 会 话 ， 


然后 在 会 话 中 执行 数据 流 图 的 各 项 操作 ( 如 同步 标记 队列 的 初始 化 操作 、 全 局 变量 的 初 


Cluster 


5-3 


create server 


[we | 


使 用 TensorFlow 分 布 式 程序 编程 框架 


始 化 操作 、 模 型 的 恢复 和 保存 操作 、 单 步 推理 和 单 步 训练 操作 等 ) 。 
一 


worker0: 初始 化 、 保 存 和 恢复 全 局 变 


， 
， 从 文件 系统 中 加 载 数据 集 ， 
[Leo 


从 checkpoint 文 件 中 加 载 模型 参数 


解析 命令 行 输入 的 模型 超 参 数 ' 


张 量 间 计 算 操 作 和 依赖 控制 


国 : 后 


跨 节点 梯度 计算 和 模型 参数 更 新 
管理 长 周期 分 布 式 模型 训练 ! 
存储 和 恢复 模型 参数 ' 


| 


， 3 个 关键 步骤 ; Cluster Graph，GrpcSession 
1 2 种 计算 形态 ， 推理 ， 训 练 1 


1 4 种 数据 类 别 : 数据 集 ， 模 型 参数 ， 模 型 超 参数 和 集群 参数 | 
3 类 数据 来 源 : file system checkpoint command 1 


数据 载 本 : Tensor，Variable FLAGS 1 


数据 消费 者 : Operation，Saver SyncOpt 


的 关键 步骤 
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TensorFlow 分 布 式 程序 处 理 的 数据 与 单机 程序 类 似 , 数据 来 源 也 仍然 是 文件 系统 、checkpoint 
文件 和 命令 行 参数 。 不 同 之 处 在 于 ,分 布 式 程序 从 命令 行 解析 的 参数 除了 模型 超 参数 外 ,还 新 增 
了 集群 配置 参数 。TensorFlow 分 布 式 程序 使 用 的 同步 优化 器 是 对 普通 优化 器 的 封装 。 同 步 优 化 器 
的 梯度 计算 部 分 由 其 封装 的 优化 器 实现 ， 多 worker 间 操 作 的 依赖 控制 和 模型 参数 更 新 模式 由 同 
步 优 化 器 的 apply_gradients 方法 实现 。 下 面 我 们 逐一 介绍 使 用 TensorFlow 分 布 式 程序 编程 框 
架 的 流程 ， 并 分 析 其 中 的 设计 思想 。 


5.2.3 创建 TensorFlow 集 群 


从 应 用 视角 看 , TensorFlow 集群 是 指 完成 一 次 完整 的 深度 学 习 训 练 或 推理 工作 所 需 的 分 布 式 
运行 实体 及 其 相关 的 资源 集合 。 与 很 多 深度 学 习 系 统 类 似 ，TensorFlow 集群 中 的 每 个 任务 在 运行 
时 映射 到 操作 系统 中 的 一 个 进程 。 任 务 按照 所 属 作 业 类 型 不 同 ， 可 分 为 PS 和 worker 两 类 ， 同 类 
任务 通过 不 同 的 任务 编号 (task_index ) 加 以 区 分 。 通 常 ， 我 们 将 任务 编号 为 0 的 worker 称 为 
chief worker。 它 与 其 他 worker 任务 略 有 不 同 ， 除 了 按部就班 地 训练 模型 外 ， 还 需要 在 训练 开始 
前 初始 化 全 局 变量 ， 以 及 在 训练 过 程 中 将 全 局 变量 保存 到 checkpoint 文件 。 现 在 可 以 根据 作业 名 
称 ( job_name ) 和 任务 编号 唯一 确定 集群 中 的 任意 一 个 服务 器 。 此 处 的 “服务 器 ”是 集群 中 特 
定 任 务 (PS 或 worker ) 中 的 一 种 上 层 抽象 ， 而 不 是 指 物理 服务 器 。 为 了 方便 说 明 ， 后 面 以 PS 任 
务 或 worker 任务 代 指 TensorFlow 集群 中 的 这 种 服务 器 抽象 。 

典型 的 分 布 式 应 用 程序 的 进程 包含 两 个 部 分 。 

口 服务 端 : 响应 集群 内 其 他 任务 的 服务 请 求 ， 负 责 协 调 会 话 的 运行 及 本 地 设备 上 的 局 部 图 
执行 。 
口 客户 端 : 维护 用 户 创 建 的 数据 流 图 和 会 话 ， 通 过 访问 服务 端 执 行 数 据 流 图 。 

TensorFlow 服务 端 和 客户 端 通常 并 存 于 同一 个 程序 中 。 客 户 端 组 件 一 般 是 指 用 户 使 用 上 层 
API (如 Python 、C++、yJava 等 ) 编写 的 模型 ， 而 服务 端 组 件 一 方面 包括 用 户 编 写 的 会 话 运 行人 
口 代 码 ， 同 时 也 包括 TensorFlow 核心 库 内 部 实现 的 会 话 和 数据 流 图 执行 逻辑 。PS 任务 通常 仅 执 
行 TensorFlow 服务 端 组 件 ， 而 worker 任务 同时 执行 TensorFlow 服务 端 和 客户 端 组 件 。 


TensorFlow 集群 的 逻辑 部 署 结构 如 图 5-4 所 示 。TensorFlow 集群 可 以 使 用 tf.train. 
Clusterspec 类 进行 定义 , 该 类 的 构造 方法 接受 一 个 描述 集群 中 所 有 任务 的 字典 ,其 键 为 作业 名 
称 ,， 值 为 属于 该 作业 类 型 的 所 有 任务 的 主机 名 和 端口 。 用 户 需要 显 式 指定 该 字典 ， 以 确保 每 个 任 
务 能 够 以 点 对 点 方式 与 集群 中 任意 其 他 的 任务 通信 。TensorFlow 任务 内 部 的 服务 器 抽象 是 
tf.train.Server 类 , 其 构造 方法 接受 的 主要 输入 参数 为 tf.train.ClusterSpec 实例 , 以 及 当 
前 任务 的 作业 名 称 和 任务 编号 。 
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Cluster 


job_name = worker 


worker0 
chief worker 


( ) 
Python client 
(dataflow graph ) 
TensorFlow server 
(gRPC service) 


tf.train.ClusterSpec({ with tf.device(tf.train.replica_. 
"worker": [ x=tfplaceholder( ...) 
"worker0.example.com:2222", hid w= 
"workerl.example.com:2222". 
"worker2.example.com:2222" 


device_setter( ...)): 


"ps0.example.com:2222", y=tf.nn.softmax(tf.nn.xw_plus_b(hid, sm _w, sm_b)) 


"psl.example.com:2222" cross_entropy = 
tralm_op = 


图 5-4 ”TensorFlow 集群 的 逻辑 部 署 结构 (以 Python API 为 例 ) 


因为 TensorFlow 没有 提供 一 次 性 启动 整个 集群 的 解决 方案 ， 所 以 用 户 需要 在 每 台 机 器 上 逐 
个 手动 启动 一 个 集群 的 所 有 PS 和 worker 任务 。 为 了 能 够 以 同一 份 代码 启动 不 同 的 任务 ,我们 需 


要 将 所 有 worker 任务 的 主机 名 和 端口 、 所 有 PS 任务 主机 名 和 端口 、 当 前 任务 的 作业 名 称 以 及 任 


务 编号 这 4 个 集群 配置 项 参数 化 。 通过 输入 不 同 的 命令 行 参数 颖 
正确 地 启动 每 一 个 任务 。 典 型 的 配置 参数 如 表 5-2 所 示 。 


昌 合 ， 用户 就 可 以 使 用 同一 份 代码 


表 5-2 TensorFlow 集群 的 4 个 典型 配置 参数 


参数 名 称 功能 说 明 输入 样 例 
job_name 作业 名 称 "worker™" 
task_index 任务 编号 6 
ps_hosts 所 有 PS 任务 的 主机 名 和 端 "10.0.0.1:2222" 
worker_hosts 所 有 worker 任务 的 主机 名 和 端口 "10.0.0.2:2223,10.0.0.3:2223" 


现在 ,我 们 参考 图 5-3 中 创建 集群 的 流程 ， 使 用 表 5-2 推荐 的 参数 名 称 和 配置 来 创建 
TensorFlow 集群 。 这 里 不 妨 将 下 面 的 文件 命名 为 trainer.py, 这 段 代码 的 主要 功能 是 定义 并 解析 集 


群 参数 ， 从 而 创建 并 启动 TensorFlow 集群 : 


"utrainer.py""" 
from tensorflow import flags 
import tensorflow as tf 
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# 定义 TensorFlow 集群 参数 
flags .DEFINE_integer("task_index", None, 
"Worker task index, should be >= 6. task_index=6 is 
"the master worker task the performs the variable " 
"initialization.") 
flags .DEFINE_string("ps_hosts", None, 
"Comma-separated list of hostname:port pairs") 
flags .DEFINE_string("worker_hosts", None, 
"Comma-separated list of hostname:port pairs") 
flags .DEFINE_string("job_name", None, "job name: worker or PS") 
def main(unused_ argv): 
# 解析 集群 参数 ps_hosts 和 worker_hosts 
PS_spec = FLAGS.ps_hosts.split(",") 
worker_spec = FLAGS.worker_hosts.split(",") 
# 定义 TensorFlow 集群 
cluster = tf.train.ClusterSpec({ 
"PS": PS_spec, 
"worker": worker_spec}) 


server = tf.train.Server( 
cluster, job_name=FLAGS.job_name, task_index=FLAGS.task_index) 
# 如 果 是 PS 任务 ， 则 开始 监听 各 worker 的 请 求 (join 函数 持续 等 待 ， 不 会 返回 ) 
if FLAGS .job_name == "PS": 
server .join() 
# 如 果 是 Worker 任务 ， 则 将 任务 编号 为 8 的 worker 设置 为 chief worker 
is_chief = (FLAGS .task_index == 0) 


现在 , 如 果 要 启动 一 个 包含 两 个 PS 和 两 个 worker 的 TensorFlow 集群 , 那么 可 以 使 用 如 下 所 
示 的 4 条 命令 : 


# On ps@.example.com: 

$ python trainer.py \ 
--ps_hosts=ps@.example.com:2222,ps1.example.com:2222 \ 
--worker_hosts=worker8.example.com:2222,worker1.example.com:2222 \ 
--job_name=PS --task_index=6 

# On ps1.example.com: 

$ python trainer.py \ 
--ps_hosts=ps@.example.com:2222,ps1l.example.com:2222 \ 
--worker_hosts=worker8.example.com:2222,worker1.example.com:2222 \ 
--job_name=PS --task_index=1 

# On worker@.example.com: 

$ python trainer.py \ 
--ps_hosts=ps6.example.com:2222,ps1.example.com:2222 \ 
--worker_hosts=worker8.example.com:2222,worker1.example.com:2222 \ 
--job_name=worker --task_index=6 

# On worker1.example.com: 

$ python trainer.py \ 
--ps_hosts=ps6.example.com:2222,ps1.example.com:2222 \ 
--worker_hosts=worker@.example.com:2222,worker1.example.com:2222 \ 
--job_name=worker --task_index=1 


这 里 我 们 通过 命令 行 参数 指定 不 同 进程 的 作业 名 称 和 任务 编号 。 
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5.2.4 将 操作 放置 到 目标 设备 


如 果 所 有 任务 都 使 用 同一 份 代码 启动 ， 那 么 必须 将 各 任务 的 操作 放置 到 对 应 的 设备 上 执行 。 
我 们 已 经 知道 ， 可 以 使 用 with tf.device 语句 来 指定 某 一 代码 作用 域 对 应 的 目标 设备 。 
tf.device 方法 的 一 种 简单 用 法 是 直接 传人 代表 设备 名 称 的 字符 串 , 该 字符 串 由 作业 名 称 、 任 务 
编号 和 可 选 的 设备 编号 组 成 。 典 型 代码 如 下 所 示 : 


# 放置 变量 weights 1 和 biases_1 到 PS 6 任务 所 在 的 设备 执行 
with tf.device("/Jjob:PS/task:6") : 
wejights 1 = tf.Variable(...) 
biases 1 = tf.Variable(...) 
# 放置 变量 weights 2 和 biases 2 到 PS 1 任务 所 在 的 设备 执行 
with tf.device("/job:PS/task:1"): 
weights 2 = tf.Variable(...) 
biases 2 = tf.Variable(...) 
# 放置 操作 input、layer_1 和 logits 到 worker 2 所 在 的 设备 执行 
with tf.device("/job:worker/task:2"): 
input = tf.placeholder 
layer 1 = tf.nn.relu(tf.matmul(input, weights 1) + biases_1) 
logits = tf.nn.relu(tf.matmul(layer_1, weights 2) + biases 2) 


此 外 ，tf.device 方法 亦 接 受 以 “设备 名 称 生 成 函数 ”作为 参数 。 这 种 使 用 方式 有 利于 设计 
高 级 的 操作 放置 策略 , 简化 复杂 策略 的 代码 实现 。TensorFlow 内 置 了 一 种 名 为 tf.train.replica_ 
device_setter 的 设备 设置 器 方法 ， 它 能 够 返回 tf.device 所 接受 的 设备 名 称 生成 函数 ， 主 要 
用 于 在 数据 并 行 的 场景 下 放置 操作 。 它 的 主要 输入 参数 是 worker_device、ps_device 和 cluster， 
分 别 表示 worker 任务 绑 定 的 设备 名 称 、PS 任务 绑 定 的 设备 名 称 和 TensorFlow 集群 实例 。 这 种 方 
式 的 典型 代码 如 下 所 示 : 
if FLAGS.num gpus > 6: 
if FLAGS.num gpus < num workers: 
raise ValueError("number of gpus is less than number of workers") 
gpu = (FLAGS.task_index % FLAGS.num_ gpus) 
worker_device = "/job:worker/task:%d/gpu:%d" % (FLAGS.task_index, gpu) 
elif FLAGS.num gpus == 6: 


cpu=0 
worker_device = "/job:worker/task:%d/cpu:%d" % (FLAGS.task_index, cpu) 


with tf.device( 
tf.train.replica device setter( 
worker_device=worker_device, 
ps_device="/Jjob:ps/cpu:6”， 
cluster=cluster) ) : 


5.2.5 ”数据 并 行 模式 


目前 ， 业 界 通常 采用 数据 并 行 的 方式 加 速 模型 训练 。 在 这 种 方式 下 ， 所 有 worker 共 享 PS 上 
存储 的 模型 参数 ， 并 按照 相同 拓扑 结构 的 数据 流 图 进行 计算 。 因 为 不 同 的 worker 填充 了 不 同 的 
批 数 据 ， 所 以 每 个 worker 计算 出 的 梯度 值 不 一 样 。PS 汇总 各 worker 的 梯度 值 ， 然 后 用 梯度 平均 
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值 更 新 模型 参数 。 这 种 方式 的 好 处 是 有 效 避 免 了 单 批 数据 的 噪音 对 最 优化 方向 的 影响 , 相当 于 同 
时 派出 多 个 人 参考 不 同 批 次 数据 ， 寻 找 梯度 下 降 最 快 的 方向 ， 并 综合 所 有 梯度 ， 找 出 令 所 有 人 满 
意 的 最 优化 方向 。 
根据 数据 流 图 的 构建 模式 ， 我 们 可 以 将 数据 并 行 分 为 以 下 两 类 。 
口 图 内 复制 〈in-graph replication) : 单 进程 、“ 单 机 多 卡 ” 的 数据 并 行 训练 ， 需 要 用 户 自 
己 实现 梯度 的 汇总 和 平均 计算 ， 典 型 实例 如 models/tutorials/image/cifar10/cifar10 multi_ 
gpu_train.py 中 CIFAR-10 的 多 GPU 训练 。 
口 图 间 复 制 (between-graph replication) : 多 进程 、 可 跨 多 机 的 分 布 式 并 行 训 练 ， 用 户 需 
要 调用 同步 优化 器 ( SyncReplicasoptimizer ) 实现 分 布 式 模型 的 梯度 计算 和 模型 参数 
更 新 ， 典 型 实例 如 tensorflow/tools/dist_ testpython/mnist replica.py 中 的 MNIST 分 布 式 模 
型 (以 下 简称 MNIST replica 模型 ) 。 


根据 训练 时 的 模型 参数 更 新 机 制 ， 我 们 可 以 将 数据 并 行 分 为 以 下 两 类 。 


口 异步 训练 asynchronous training) : 每 个 worker 独立 训练 ， 计 算出 梯度 值 后 立即 (或 
按照 预 置 的 策略 等 待 特定 事件 发 生 后 ) 进行 模型 参数 更 新 计算 。 每 个 worker 无 需 阻塞 等 
待 其 他 所 有 worker 的 梯度 计算 完成 。 

口 同步 训练 (synchronous training) : 每 个 worker 独立 训练 ， 直 到 所 有 worker 计算 出 梯度 
值 后 再 进行 模型 参数 的 汇总 计算 ， 并 更 新 当前 训练 步 的 模型 参数 。 计 算 较 快 的 worker 需 
要 阻塞 等 待 计算 较 慢 的 worker。 

两 种 训练 机 制 都 同时 适用 于 图 内 复制 和 图 间 复 制 模式 。 通 常情 况 下 , 同步 训练 比 异 步 训练 的 

收敛 速度 更 快 ， 训练 步 数 更 少 ; 异步 训练 的 单 步 耗 时 更 少 , 但 容易 受到 单 批 数 据 的 影响 ,训练 步 
数 反而 更 多 。 


5.2.6 同步 训练 机 制 


我 们 已 经 学 习 了 TensorFlow 单机 模型 的 训练 方法 。 在 此 基础 上 ， 本 节 主 要 介绍 分 布 式 模型 
的 同步 训练 机 制 。 同步 训练 机 制 基 于 同步 标记 队列 和 同步 优化 器 , 它们 能 够 确保 分 布 式 模型 每 一 
步 的 训练 过 程 都 是 公平 和 公正 的 ， 不 受 个 别 计算 能 力 强 的 worker 任务 的 影响 。 


我 们 一 般 将 决定 是 否 使 用 同步 训练 的 超 参 数 命 名 为 FLAGS .sync_replicas。 如 果 它 等 于 
True ， 则 表示 使 用 同步 训练 机 制 更 新 参数 。 这 种 情况 下， 同步 优化 器 自动 将 各 worker 任务 计算 
出 的 梯度 值 进行 汇总 ， 然 后 使 用 梯度 的 平均 值 进 行 模型 参数 的 更 新 。 否 则 ， 使 用 异步 训练 机 制 ， 
这 时 所 有 worker 独自 训练 , 仅 共 享 模型 参数 ,下 面 的 代码 展示 了 如 何 使 用 同步 优化 器 实现 MNIST 
模型 的 同步 训练 : 

# 创建 数据 流 图 ， 得 出 推理 结果 y 


y = tf.nn.softmax(tf.nn.xw_plus_b(hid, sm w, sm_b)) 
# 使 用 交 又 炳 评估 两 个 概率 分 布 间 的 相似 性 
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# 因为 概率 取 值 范 


if FLAGS .replicas_ to_aggregate is None : 
replicas_ to _ aggregate = num workers 
else: 
replicas_ to aggregate = FLAGS.replicas to _ aggregate 
# 创建 名 为 mnist_sync_replicas 的 同步 优化 器 
opt = tf.train.SyncReplicasOptimizer( 
opt， 
replicas_ to aggregate=replicas_ to _aggregate, 
total_num_replicas=num_workers, 
name="mnist_sync_replicas") 


围 为 [6，1]， 为 避免 出 现 无 意义 的 log(@)， 故 将 y 值 裁剪 到 [1e-16，1.6] 
cross_entropy = -tf.reduce sum(y_ * tf.log(tf.clip by_value(y, 1e-106, 1.0))) 
# 使 用 Adam 做 最 优化 求解 

opt = tf.train.AdamOptimizer(FLAGS.1learning_rate) 
# 如 果 使 用 同步 训练 机 制 ， 则 创建 同步 优化 器 

if FLAGS.sync_replicas: 


# 如 果 使 用 异步 训练 机 制 ， 则 各 worker 直接 使 用 Adam 优化 器 独自 训练 ， 仅 共享 模型 参数 
train_step = opt.minimize(cross_entropy, global_ step=global_step) 


如 上 面 的 代码 所 示 , 用 户 需 要 在 已 定义 的 普通 优化 器 的 基础 上 , 再 创建 一 个 包含 普通 优化 器 


和 各 项 配置 参数 的 同步 优化 器 实例 。 表 5-3 列 出 了 同步 优化 器 的 主要 配置 参数 。 用 户 通 常 需要 从 
命令 行 输入 这 些 配 置 参数 ， 然 后 利用 4.3.2 节 介 绍 的 flags 模块 对 其 进行 解析 。 


表 5-3 同步 优化 器 的 主要 配置 参数 


参数 名 称 功能 说 明 默 认 值 
replicas_ to aggregate 并 行 副 本 数 num_workers 
total num replicas 实际 副本 数 或 worker 任务 数 num_workers 
nonevariable averages 是 否 使 用 ExponentialMovingAverage None 
variables_to_average 需要 进行 平均 值 计算 的 模型 参数 列表 None 


表 5-3 中 的 num_workers ( worker 任务 数 ) 是 月 


日 户 在 集群 配置 的 worker_hosts 参数 中 声明 


的 worker 任务 数量 , 可 通过 解析 命令 行 得 到 。TensorFlow 的 worker 任务 是 承担 梯度 计算 的 实体 ， 
副本 是 模型 训练 过 程 中 单独 处 理 一 份 批 数据 的 抽象 下面 我 们 介绍 表 5-3 中 两 个 极 易 混淆 的 参数 : 
并 行 副 本 数 和 实际 副本 数 。 


据 个 数 。 


口 并 行 副本 数 : 单 步 训练 中 需要 参与 并 行 计算 的 副本 数量 ， 即 用 户 期 望 单 步 训练 的 并 行 数 


口 实际 副本 数 : 单 步 训练 中 实际 参与 计算 的 worker 任务 数 。 

通过 配置 不 同 的 并 行 副本 数 和 实际 副本 数 , TensorFlow 为 用 户 提 供 了 灵活 的 同步 训练 机 制 及 
化 的 模型 参数 更 新 模式 。 典 型 的 模式 包括 以 下 3 种 。 
口 replicas_to_aggregate=total_num_replicas:“ 全 民 参 与 ”模式 。 每 个 worker 任务 都 
领取 一 份 不 同 的 批 数 据 进 行 训 练 ， 每 一 步 训练 一 般 都 会 


所 有 worker 共同 参与 计算 。 


口 replicas_to_aggregate>total_num_replicas:“ 能 者 多 劳 ” 模 式 。 因 为 并 行 副本 数 大 


于 worker 任务 数 ， 所 以 每 一 步 训练 都 存在 计算 能 力 强 的 worker 计算 多 份 梯度 的 情况 。 在 
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每 一 步 训 练 中 ， 计 算 能 力 强 的 worker 将 自己 本 次 计算 得 出 的 梯度 推送 到 PS 后， 如果 发 现 
尚未 训练 的 批 数 据 ， 就 会 再 次 领取 一 份 批 数据 进行 训练 。 当 PS 接收 的 梯度 值 份 数 达 到 并 
行 副本 数 后 ， 它 会 计算 得 出 梯度 的 平均 值 ， 然 后 更 新 模型 参数 ， 进 入 下 一 步 训练 。 
口 replicas_to_aggregate<total_num_replicas: “替补 等 位 ”模式 ， 因 为 并 行 副本 数 小 
于 worker 任 务 数 ， 所 以 个 别 worker 不 需要 参与 训练 。 在 某 些 worker 任 务 出 现 异 常 时 ， 空 
闲 的 worker 可 以 作为 “替补 ”， 确 保 TensorFlow 分 布 式 训练 过 程 的 高 可 用 。 
同步 优化 器 在 计算 梯度 时 与 普通 优化 器 没有 区 别 ， 均 直接 调用 基 类 optimizer 的 
compute_gradients 成 员 方法 。 但 是 , 在 应 用 梯度 更 新 模型 参数 时 , 它 为 分 布 式 程序 做 了 特别 的 
设计 。 同 步 优化 器 重 写 了 optimizer 的 apply_gradients 成 员 方法 ， 感 兴趣 的 读者 可 以 阅读 
tensorflow/python/training/sync_replicas_optimizer.py 文件 对 该 方法 的 定义 。 图 5-5 展示 了 同步 优化 
器 中 最 常用 的 参数 更 新 模式 一 一 “全 民 参 与 ”模式 的 工作 流程 。 
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图 5-5 ”同步 优化 器 “全 民 参 与 ”模式 的 工作 流程 


为 了 方便 说 明 ， 我 们 假设 模型 参数 的 个 数 为 M， 并 行 副本 数 和 实际 副本 数 均 为 N， 且 每 个 
worker 都 接收 并 使 用 全 量 共 M 个 模型 参数 进行 训练 。 在 “全 民 参 与 ”模式 中 ， 同 步 优化 器 涉及 
两 个 重要 组 件 : 梯度 聚合 器 〈 gradients accumulator ) 和 同步 标记 队列 。 
口 梯度 聚合 器 : 存储 梯度 值 的 队列 。 以 模型 参数 作为 区 分 ， 每 个 模型 参数 拥有 一 个 单独 的 
队列 。 队 列 收集 来 自 于 不 同 worker、 根 据 不 同 批 数 据 计 算出 的 该 模型 参数 对 应 的 梯度 
值 。 如 图 5-5 所 示 ， 梯 度 聚 合 器 共 包 含 M 个 队列 ， 对 应 M 个 模型 参数 ， 每 个 队列 收集 来 
自 于 N 个 worker 计算 出 的 YX 个 梯度 值 。 

口 同步 标记 队列 : 存储 同步 标记 的 队列 。 同 步 标记 决定 worker 是 否 能 够 执行 梯度 计算 任 
务 。 当 队列 中 没有 同步 标记 时 ，worker 无 法 从 PS 获取 更 新 后 的 模型 参数 ， 也 就 无 法 进行 
梯度 计算 。 

5-5 展示 的 工作 流程 的 执行 实体 是 worker 和 PS， 下 面 我 们 分 别 介绍 它们 在 “全 民 参 与 ” 
模式 中 的 具体 工作 步 又。 其 中 worker 在 “全 民 参 与 ”模式 中 的 工作 步骤 如 下 。 


(1) 从 同步 标记 队列 中 取出 一 个 值 为 global_step 、 表 示 全 局 训练 步 数 的 同步 标记 。 
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(2) 将 同步 标记 的 值 赋予 worker 的 本 地 训练 步 数 ( local_step )。 

(3) 从 PS 获取 最 新 的 模型 参数 。 

(4) 计算 得 到 M 个 模型 参数 对 应 的 M 个 梯度 值 。 

(5) 将 计算 出 的 MM 个 梯度 值 推送 到 PS 上 对 应 的 MM 个 模型 参数 的 梯度 队列 中 。 
PS 在 “全 民 参 与 ”模式 中 的 工作 步 又 如 下 。 


(1) PS 上 的 梯度 聚合 器 收集 worker 推送 来 的 梯度 值 。 当 每 个 梯度 队列 收集 到 N 份 当前 训练 
步 〈 值 为 global_step ) 的 梯度 值 时 ， 就 求 出 该 模型 参数 对 应 的 梯度 平均 值 。 直 到 所 有 梯度 队列 
都 收集 齐 对 应 的 梯度 值 后 ， 最 终 出 队 得 到 包含 M 对 { 模 型 参数 ， 对 应 梯度 平均 值 } 的 聚合 元 组 


(aggreagated_grads_and_vars )。 
(2) 将 梯度 平均 值 更 新 到 对 应 的 模型 参数 ， 得 到 更 新 后 的 模型 参数 。 
(3) 向 同步 标记 队列 推送 下 一 步 训练 需要 的 值 为 global_step+1 的 NN 个 同步 标记 。 


同步 更 新 机 制 是 一 种 基于 全 局 同步 时 序 更 新 模型 参数 的 机 制 。 在 梯度 聚合 器 和 同步 标记 队列 
的 配合 下 ， 同 步 优 化 器 确保 每 一 步 训 练 时 各 个 worker 在 不 同 批 数据 上 计算 出 的 梯度 能 够 被 统一 
聚合 并 做 平均 , 然后 一 次 性 同步 更 新 到 PS 的 模型 参数 中 。 同步 更 新 机 制 实现 了 真正 的 数据 并 行 ， 
它 将 单机 无 法 处 理 的 数据 横向 扩展 到 多 个 不 同 的 worker 上 并 行 计算 。 所 有 参与 计算 的 worker 共 
同 组 成 了 一 个 拥有 更 强 计 算 能 力 的 虚拟 计算 设备 ， 以 此 提升 数据 处 理 能 力 。 


下 面 我 们 基于 图 5-5 的 工作 流程 ， 介 绍 同步 更 新 机 制 的 实现 原理 。 梯 度 聚 合 器 在 收集 梯度 值 
时 会 校 验 当前 梯度 的 版 本 号 ( 应 该 被 赋值 为 1ocal_step )。 如 果 某 个 worker 的 local_step 不 等 
于 global_step (说 明 它 们 不 属于 同一 个 训练 步 ， 不 符合 同步 更 新 的 定义 )， 那 么 梯度 聚合 器 就 
会 拒绝 收集 它 推送 的 梯度 值 。 直 到 收集 够 N 份 当 前 训练 步 的 梯度 后 , PS 才 更 新 对 应 的 模型 参数 。 
计算 能 力 强 的 worker 完成 梯度 计算 并 将 其 推送 到 PS 后 , 它 可 能 阻塞 在 第 (3) 步 。 因 为 同步 标记 队 
列 中 的 标记 已 被 其 他 worker 全 部 取出 , 所 以 计算 能 力 强 的 worker 只 能 等 待 其 他 worker 完成 当前 
步 的 执行 步骤 。 直 到 当前 训练 步 的 模型 参数 更 新 后 ，PS 才 会 向 同步 标记 队列 人 队 新 的 同步 标记 。 
此 时 ， 所 有 worker 再 开始 下 一 步 训 练 。 


同步 更 新 机 制 依赖 于 同步 标记 队列 的 状态 。 每 一 步 训练 启动 的 前 提 是 同步 标记 队列 被 填 满 了 
N 个 值 为 global_step 的 同步 标记 。 在 第 一 次 训练 开始 前 ， 因 为 PS 没有 更 新 模型 参数 ， 所 以 不 会 
向 同步 标记 队列 入 队 标 记 。 为 此 , 我 们 需要 执行 一 个 初始 化 同步 标记 队列 的 操作 一 一 sync_init op。 
它 不 依赖 于 模型 参数 的 更 新 操作 ， 而 是 直接 向 同步 标记 队列 填充 个 值 为 0 的 标记 。 于 是 , 该 初 
始 化 操作 如 同 触发 器 一 样 开 启 了 整个 训练 过 程 。 

除了 初始 化 同步 标记 队列 外 , 表 5-4 列 出 了 用 户 在 训练 分 布 式 模型 前 需要 执行 的 其 他 主要 初 
始 化 操作 。 不 过 ， 如 果 用 户 使 用 TensorFlow 的 模型 管理 类 Supervisor， 那 么 可 以 将 这 些 初 
始 化 操作 全 部 交 给 supervisor 并 在 其 内 部 实现 。 
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表 5-4 使 用 同步 训练 机 制 时 的 主要 初始 化 操作 


操作 名 称 常用 变量 名 或 简称 功能 说 明 
opt.local step init op local init op 设置 local_step 的 初始 值 
opt.chief init op local init op 设置 global_step 的 初始 值 
opt.ready_for_local_init_op ready_for_ local_init_op 为 未 初始 化 的 Variable 设置 初始 值 
opt.get init tokens op sync_init op 为 同步 标记 队列 入 队 初 始 值 
tf.global variables initializer init op 为 全 局 Variable 设置 初始 值 


注 : opt 特 指 tf.SyncReplicasOptimizer。 


下 面 的 代码 给 出 了 表 5-4 中 初始 化 操作 的 典型 使 用 方法 : 


# 使 用 同步 训练 机 制 
if FLAGS.sync_replicas: 
# 非 chief worker: 为 local_step 设置 初始 值 
local_init op = opt.local_ step_init op 
# chief worker: 为 global_step 设置 初始 值 
if is_chief: 
local_init op = opt.chief init_op 
# 定义 对 未 初始 化 变量 设置 初始 值 的 操作 
ready_for_local_init op = opt.ready for_ local init op 


# 定义 启动 同步 标记 队列 的 QueueRunner 实例 
chief _queue_runner = opt.get_chief queue_runner() 
# 定义 对 同步 标记 队列 入 队 初 始 值 的 操作 
sync_init op = opt.get_ init tokens_op() 
# 定义 对 全 局 变量 设置 初始 值 的 操作 
init op = tf.global variables initializer() 
接 下 来 ,我 们 简要 介绍 “能 者 多 劳 ” 模 式 。 对 比 “ 全 民 参 与 ”和 “能 者 多 劳 ” 两 种 模式 的 工 
作 流 程 , 有 助 于 进一步 理解 数据 并 行 的 本 质 。 数据 并 行 解决 的 核心 问题 是 增 大 单个 训练 步 的 批 数 
据 规模 。 当 计算 资源 不 足 时 ， 可 以 借助 梯度 聚合 器 和 同步 标记 队列 实现 数据 并 行 。 图 5-6 展示 了 
“能 者 多 劳 ”模式 的 工作 流程 。 


@@。 worker 执 行 步 双 
四 


了 PS 执行 步骤 
一 > 执行 命令 
一” 依赖 控制 
gradients accumulators (9) 
nD ® enqueue many 
tis a Md ars ——— updated vars 


wn le ed 


enqueue_many 


(grado[0...M]) | 
\ 
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1 
van[O.M] -mpute sadens，gradio .MI @ 1\ local step ss token 


1 (global_step) (global_step) 
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9 1 
compute gradients 
OO 1 local_step 2 有 token 


(global_step) (global_step) 


图 5-6 同步 优化 顷 “ 能 者 多 劳 ” 模 式 的 工作 流程 


replicasR vara[0...M] 


(warker N) gradr[0...M] ® 
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为 了 方便 说 明 ， 我们 仍然 假设 模型 参数 个 数 为 M，worker 任务 数 为 N。 男 设 并 行 副 本 数 为 R 
(R>N)。 下 面 介绍 “全 民 参 与 ”模式 下 梯度 聚合 器 和 同步 标记 队列 的 功能 变化 。 
口 梯度 聚合 器 : 因为 模型 个 数 不 变 ， 所 以 我 们 仍然 需要 M 个 梯度 队列 来 收集 不 同 批 数据 上 
计算 出 的 梯度 值 。 但 是 ， 每 个 梯度 队列 需要 收集 的 梯度 份 数 为 R， 大 于 worker 任务 数 ， 
这 说 明 部 分 计算 能 力 强 的 worker 每 一 步 都 必须 领取 多 批 数据 计算 梯度 。 
口 同步 标记 队列 : 存储 R 个 同步 标记 ， 确 保 每 一 步 训 练 时 梯度 聚合 器 都 能 够 收集 R 份 数 据 
上 并 行 计算 出 的 梯度 。 计 算 能 力 强 的 worker 在 推送 梯度 到 PS 后 ， 最 多 可 以 从 同步 标记 队 
列 中 获取 剩余 的 R-N 个 同步 标记 。 
在 学 习 了 “全 民 参 与 ”和 “能 者 多 劳 ”模式 的 工作 流程 后 ， 读 者 可 以 自行 思考 “替补 等 位 ” 
模式 的 工作 流程 。 


5.2.7 异步 训练 机 制 


使 用 TensorFlow 异步 训练 分 布 式 模 型 时 ， 既 不 需要 创建 同步 优化 器 实例 ， 也 不 需要 执行 额 
外 的 初始 化 操作 。 异 步 训 练 机 制 的 本 质 是 将 存储 在 PS 上 的 模型 参数 共享 给 所 有 的 worker， 每 个 
worker 计算 出 的 梯度 值 都 直接 更 新 模型 参数 , 不 用 等 待 其 他 worker。 程序 不 做 梯度 聚合 器 校 验 和 
梯度 收集 ， 也 不 需要 从 同步 标记 队列 中 获取 同步 标记 。 所 有 worker 的 训练 行为 与 单机 模型 训练 
几乎 一 致 ， 唯 一 不 同 在 于 模型 参数 需要 从 其 他 进程 (PS ) 获取 。 当 不 同 的 worker 同时 进行 参数 
更 新 和 拉 取 操作 时 ，TensorFlow 内 部 的 锁 机 制 保证 模型 参数 的 数据 一 致 性 。 图 5-7 展示 了 异步 训 
练 的 工作 原理 。 


一 > 执行 命令 


compute_gradients 


worker N Var [0，M] 一 2Tad、[0，M] 
compute_gradients 
worker0 var, [0，M] grad, [0, M] 
apply_gradients 
ps 


updated_vars 
图 5-7 异步 训练 的 工作 原理 


异步 训练 过 程 因为 没有 创建 同步 优化 器 实例 ， 所 以 也 没有 并 行 副本 数 和 实际 副本 数 的 概念 。 
异步 训练 的 好 处 是 提高 了 资源 利用 率 , 它 保证 没有 worker 处 于 “替补 ”或 空闲 状态 。 所 有 的 worker 
都 可 以 持续 不 断 地 进行 本 地 训练 ,不 必 担 心 任何 的 控制 依赖 问题 ,因此 ,异步 训练 机 制 下 各 worker 
的 本 地 训练 步 数 与 全 局 训练 步 数 也 不 相等 , 计算 能 力 强 的 本 地 训练 步 数 相对 较 大 , 计算 能 力 弱 的 
本 地 训练 步 数 相对 较 小 。 
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5.2.8 使 用 Supervisor 管 理 模型 训练 


在 使 用 TensorFlow 训练 模型 的 过 程 中 ， 难 免 出 现 意外 导致 训练 异常 结束 。 为 了 提升 模型 训 
练 过 程 的 健壮 性 , TensorFlow 为 用 户 提供 了 训练 管理 类 Supervisor。 该 类 同时 支持 单机 和 分 
布 式 模型 训练 的 管理 ， 它 以 一 种 尽 可 能 简单 的 使 用 方式 为 用 户 提供 了 以 下 3 种 功能 。 


口 在 模型 训练 过 程 中 ， 定 期 保存 模型 参数 到 checkpoint 文件 。 
口 在 重新 启动 训练 程序 时 ， 从 checkpoint 文件 中 读 取 和 恢复 模型 参数 ， 并 继续 训练 。 
口 在 异常 发 生 时 ， 处 理 程序 关闭 和 异常 退出 ， 同 时 完成 内 存 回收 等 清理 工作 。 

Supervisor 将 大 部 分 定期 操作 和 异常 处 理 封装 成 接口 。 用 户 只 需 在 初始 化 它 时 设置 好 相关 
参数 ,之 后 便 不 再 需要 做 额外 的 逻辑 控制 和 条 件 判断 。 supervisor 本 质 上 是 对 3 个 类 
SessionManager 和 Coordinator 的 封装 ， 它 们 的 功能 如 下 。 


口 saver: 模型 参数 的 存储 和 恢复 。 
口 Coordinator : 多 线程 服务 的 生命 周期 管理 。 
口 SessionManager: 单机 和 分 布 式 会 话 的 管理 。 

Saver 的 功能 与 使 用 方法 已 在 4.2 市 中 介绍 过 。 除 了 前 述 基 本 功能 外 ， 它 还 能 够 定期 执行 汇 
总 操作 ， 并 将 输出 结果 序列 化 保存 到 汇总 事件 文件 中 。 这 些 文件 可 用 于 多 种 不 同类 型 的 可 视 化 。 
我 们 将 在 下 一 章 中 详细 介绍 基于 这 一 机 制 实现 的 TensorBoard 可 视 化 工具 ， 现 在 先 把 目光 聚焦 在 
模型 训练 管理 上 。 

Coordinator 主要 负责 监控 训练 程序 中 启动 的 多 个 线程 是 否 运 行 正常 。 在 模型 训练 过 程 中 ， 
任何 服务 抛 出 异常 时 都 会 向 supervisor 报告 。 此 时 ，Coordinator 会 将 程序 的 停止 条 件 设置 为 
True，Supervisor 随即 停止 模型 的 训练 ， 并 清理 工作 现场 (关闭 会 话 、 回 收 内 存 等 )。 其 他 服务 
检测 到 停止 条 件 变 为 True 后 ， 便 会 停止 运行 ， 并 关闭 各 自 的 线程 。 

如 果 说 Saver 和 coordinator 的 组 合 增强 了 模型 训练 的 健壮 性 ， 那 么 SessionManager 则 
为 模型 训练 提供 了 实际 的 运行 环境 。sessionManager 帮助 用 户 创建 并 管理 单机 或 分 布 式 会 话 ， 
以 便 简化 数据 流 图 算法 的 生命 周期 维护 逻辑 。 同 时 ， 它 还 负责 将 checkpoint 文件 中 存储 的 模型 参 
数 恢复 到 会 话 加 载 的 数据 流 图 中 。 

使 用 supervisor 管理 模型 训练 的 典型 流程 如 下 。 

(1) 创建 一 个 Supervisor 实例 , 向 其 构造 方法 传人 checkpoint 文件 和 汇总 事件 文件 的 存储 目 
录 (logdir )。 

(2) 调用 tf.train.Supervisor.managed_session 方法 ， 从 Supervisor 实例 获取 一 个 
会 话 实例 。 

(3) 使 用 该 会 话 执行 训练 操作 ， 并 在 训练 过 程 中 检查 停止 条 件 ， 以 确保 模型 训练 的 正确 性 。 

用 户 在 调用 managed_session 方法 获取 会 话 实 例 时 , Supervisor 通过 QueueRunner 同时 启 


Saver、 
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动 了 以 下 3 个 独立 运行 在 各 自 线 程 中 的 标准 服务 。 


口 检查 点 服务 : 将 数据 流 图 中 的 模型 参数 定期 保存 到 logdir 下 的 checkpoint 文 件 。 如 果 用 户 
在 数据 流 图 中 正确 添加 了 global_step， 那 么 checkpoint 会 根据 global_step 的 值 生 成 
文件 名 。 默 认 情 况 下 ， 每 10 分 钟 执行 一 次 。 

口 汇总 服务 : 执行 所 有 的 汇总 操作 ， 并 将 输出 结果 追加 到 logdir 下 的 汇总 事件 文件 中 。 默 

认 情 况 下 ， 每 2 分 钟 执行 一 次 。 

口 步 数 计数 器 服务 : 通过 观察 global_step 的 变化 ， 记 录 当 前 执行 的 训练 步 数 。 同 时 ， 向 
汇总 事件 文件 追加 一 条 当前 训练 步 执行 时 间 的 记录 ， 汇 总 标记 为 global_step/sec。 默 认 情 
况 下 ,每 2 分 钟 执行 一 次 。 

当 训练 正常 结束 或 异常 退出 后 ， 最 新 的 checkpoint 文件 和 汇总 事件 文件 都 会 保存 在 logdir 目 

录 下 。 用 户 使 用 managed_session 方法 重新 创建 会 话 时 ，Supervisor 能 够 自动 恢复 logdir 目录 

下 最 新 的 checkpoint 文件 ， 为 数据 流 图 中 的 模型 参数 赋予 此 前 保存 的 值 ， 然 后 继续 训练 。 


下 面 首先 给 出 使 用 supervisor 管理 单机 模型 训练 的 简单 代码 实现 : 


Hie 创建 数据 流 图 …… 
# 创建 一 个 Supervisor 实例 
sv = tf.train.Supervisor(logdir="/my/training/directory") 
# 获取 一 个 进程 内 的 会 话 实例 ， 并 完成 模型 参数 的 初始 化 
with sv.managed_session() as sess: 

# 初始 化 完成 后 ， 使 用 该 会 话 训练 模型 

while not sv.should_stop(): 

sess.run(train_op) 


接着 给 出 使 用 supervisor 管理 分 布 式 模型 训练 的 代码 实现 : 


A 创建 数据 流 图 …… 
server = tf.train.Server(cluster, 
job_name=FLAGS .job_name, 
task_index=FLAGS.task_index) 
# 判断 当前 进程 是 否 为 chief worker 
is_chief = (FLAGS .task_index == 6) 
# 创建 一 个 Supervisor 实例 ， 将 日 志 目 录 设 置 在 共享 文件 系统 上 ， 
# 并 指明 当前 进程 是 否 为 chief worker 
sv = tf.train.Supervisor(logdir="/shared directory/... 
is_chief=is_chief) 
# 在 TensorFlow 集群 的 指定 server 上 获取 一 个 会 话 实例 
# 如 果 当 前 进程 是 chief worker， 那 么 初始 化 全 局 的 模型 参数 
# 如 果 当 前 进程 不 是 chief worker， 那么 等 待 chief worker 完成 初始 化 
with sv.managed_session(server.target) as sess: 
# 初始 化 完成 后 ， 使 用 该 会 话 训 练 模型 
while not sv.should_stop(): 
sess.run(train_op) 


如 果 当 前 进程 是 chief worker, 那么 Supervisor 启动 的 服务 与 单机 模型 的 情况 一 致 。 如 果 当 
前 进程 不 是 chief worker， 那 么 Supervisor 在 实例 化 会 话 后 ， 将 等 待 chief worker 完成 全 局 模型 
参数 的 初始 化 。 直 到 chief worker 初始 化 完成 后 , 非 chief worker 才 会 得 到 一 个 可 用 的 分 布 式 会 话 


5.2” 分布 式 程序 编程 框架 133 


对 象 ， 进 而 开始 训练 模型 。 

当 TensorFlow 集群 中 某 个 worker 异常 退出 并 重启 程序 时 ，managed_session 方法 会 检查 全 
局 的 模型 参数 是 否 已 完成 初始 化 。 如 果 是 , 那么 该 方法 将 直接 返回 一 个 可 用 的 分 布 式 会 话 , 并 继 
续 训 练 ; 如 果 和 否 , 那么 chief worker 将 重新 初始 化 全 局 模型 参数 ， 非 chief worker 则 会 停止 训练 并 
等 待 模型 参数 初始 化 完成 。 


5.2.9 分 布 式 同步 训练 的 最 佳 实践 


本 节 结 合 前 几 节 学 习 的 内 容 ， 通 过 丰富 的 注释 ， 从 代码 实现 层面 解析 TensorFlow 分 布 式 程 
序 编 程 框架 的 工作 流程 和 使 用 方法 : 


5.2_best_practice.py 
from _ future_ _ import absolute import 
from _ future import division 

from _ future__ import print_function 


import math 
import sys 
import tempfile 
import time 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data 


flags = tf.app.flags 
flags.DEFINE_string("data_dir", "/tmp/mnist-data", 

"Directory for storing mnist data") 
flags.DEFINE_string("train dir", "/tmp/mnist-log", 

"Directory for storing checkpoint and summary files") 
flags .DEFINE_integer("task_index", None, 

"Worker task index, should be >= 6. task_index=6 is 

"the master worker task the performs the variable " 

"initialization ") 
flags .DEFINE_integer("replicas to aggregate", None, 

"Number of replicas to aggregate before parameter update" 

"is applied (For sync_replicas mode only; default: " 

"num_workers)") 
flags .DEFINE_ integer("hidden units", 1060, 

"Number of units in the hidden layer of the NN") 
flags .DEFINE_integer("train_steps", 2080, 

"Number of (global) training stePSs to perform") 
flags .DEFINE_ integer("batch size", 160, "Training batch size") 
flags.DEFINE_ float("learning rate", 8.61, "Learning rate") 
flags .DEFINE_ boolean("sync_replicas", False, 

"Use the sync_replicas (synchronized replicas) mode, 

"wherein the parameter updates from workers are aggregated " 

"before applied to avoid stale gradients") 
flags.DEFINE_string("ps_hosts","localhost:2222", 

"Comma-separated list of hostname:port pairs") 
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flags.DEFINE_string("worker_hosts", "localhost:2223,1ocalhost:2224", 
"Comma-separated list of hostname:port pairs") 
flags .DEFINE_string("job_name", None,"job name: worker or PS") 


FLAGS = flags.FLAGS 


IMAGE_PIXELS = 28 


def main(unused_argv): 
mnist = input_data.read data_ sets(FLAGS.data dir, one_hot=True) 
if FLAGS.job_name is None or FLAGS.job name == "": 
raise ValueError("Must specify an explicit “job_name ") 
if FLAGS.task_index is None or FLAGS.task_ index =="": 
raise ValueError("Must specify an explicit “task_index ") 


# 解析 PS 和 worker 的 主机 名 、 端 口 列 表 
PS_spec = FLAGS.ps_hosts.split(",") 
worker_spec = FLAGS.worker_hosts.split(",") 


# 计算 worker 的 数量 
num_workers = len(worker_spec) 


cluster = tf.train.ClusterSpec({ 
"PS": PS_spec, 
"worker": worker_spec}) 


# 如 果 是 PS， 直 接 启 动 服务 ， 并 开始 监听 worker 发 起 的 请 求 
if FLAGS.job_name == "PS": 
server.join() 


# 根据 TensorFlow 集群 的 定义 和 当前 设备 的 信息 ， 放 置 对 应 的 模型 参数 和 计算 操作 
with tf.device( 
tf.train.replica device_ setter( 
worker_device=worker_device, 
pS_device="/job:PS/cpu:0", 
cluster=cluster)): 
global_step = tf.Variable(60, name="global_step", trainable=False) 


# 隐 层 模型 参数 
hid w = tf.Variable( 
tf.truncated_normal( 
[IMAGE_PIXELS * IMAGE_ PIXELS, FLAGS.hidden units], 
stddev=1.0 / IMAGE_PIXELS), 
name="hid_w") 
hid_b = tf.Variable(tf.zeros([FLAGS.hidden units]), name="hid_b") 


# softmax 层 模 型 参数 
sm_w = tf.Variable( 
tf.truncated_normal( 
[FLAGS .hidden_units，16]， 
stddev=1.6 / math.sqrt(FLAGS .hidden_units) )， 
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name="sm_w" 
sm b = tf.Variable(tf.zeros([16]), name="sm_b") 


# 根据 任务 编号 放置 对 应 的 placeholder 

x = tf.placeholder(tf.float32, [None, IMAGE PIXELS * IMAGE_PIXELS]) 

y_ = tf.placeholder(tf.float32, [None, 106]) 

# tf.nn.xw_plus_b 即 为 matmul(x, w)+b 

hid_lin = tf.nn.xw_plus_b(x, hid_w, hid_b) 

# 使 用 relu 作为 激活 有 函数 ，hid 作为 隐 层 输出 

hid = tf.nn.relu(hid_ 1in) 

# 定义 softmax 层 的 输出 y， 即 推理 计算 出 的 标签 值 

y = tf.nn.softmax(tf.nn.xw_plus_b(hid, sm w, sm_b)) 

# 使 用 交叉 粒 评 估 两 个 概率 分 布 间 的 相似 性 

# 因为 概率 取 值 范围 为 [6，1]， 为 避免 出 现 无 意义 的 1o0g(8)， 故 将 y 值 裁剪 到 [1e-19，1.6] 
cross_entropy = -tf.reduce sum(y_ * tf.log(tf.clip_by _ value(y，1e-16，1.6))) 
# 使 用 Adam 做 最 优化 求解 

opt = tf.train.Adamo0ptimizer(FLAGS.learning_rate) 


# 如 果 使 用 同步 训练 机 制 
if FLAGS.sync_replicas: 
# 如 果 用 户 没有 输入 并 行 副本 数 ， 则 令 其 等 于 worker 任务 数 
if FLAGS.replicas to aggregate is None: 
replicas_to_aggregate = num workers 
# 如 果 用 户 输入 了 并 行 副本 数 ， 则 赋值 为 命令 行 解析 的 并 行 副本 数 
else: 
replicas_ to _ aggregate = FLAGS.replicas_ to _aggregate 
# 创建 同步 优化 器 实例 ， 负 责 计算 梯度 和 更 新 模型 参数 
opt = tf.train.SyncReplicasOptimizer( 
opt， 
replicas_ to aggregate=replicas_ to_aggregate， 
total_num_replicas=num workers, 
name="mnist_sync_replicas") 
# 单 步 训 练 操作 ， 即 利用 同步 优化 器 最 优化 交 又 炳 
train op = opt.minimize(cross_entropy, global_step=global_step) 


# 使 用 同步 训练 机 制 
if FLAGS.sync_replicas: 
# 其 他 worker: 为 ]ocal_step 设置 初始 值 
local_init op = opt.local step_init op 
# chief worker: 为 global_step 设置 初始 值 
if is_chief: 
local_init op = opt.chief_init_op 
# 定义 为 未 初始 化 的 Variable 设置 初始 值 的 操作 
ready_for_local_init op = opt.ready for_local_init_op 


# 定义 启动 同步 标记 队列 的 QueueRunner 实例 
chief_queue_runner = opt.get chief queue_runner() 
# 定义 同步 标记 队列 入 队 初始 值 的 操作 
sync_init op = opt.get init tokens_op() 

# 定义 全 局 Variable 设置 初始 值 的 操作 

init_ op = tf.global variables initializer() 

# 判断 当前 是 否 为 chief worker 的 任务 进程 

is_chief = (FLAGS.task_index == 0) 
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# 使 用 同步 训练 机 制 ， 传 入 本 地 初始 化 相关 操作 
if FLAGS.sync_replicas: 
sv = tf.train.Supervisor( 
is_chief=is_chief, 
logdir=FLAGS.train dir, 
init op=init_op, 
local_init op=local_init_op, 
ready_for_local_init op=ready_for_local_init_op, 
recovery wait_ secs=1, 
global_step=global_step) 
# 使 用 异步 更 新 机 制 ， 各 worker 独自 训练 ， 与 单机 模型 一 致 
else: 
sv = tf.train.Supervisor( 
is_chief=is_chief, 
logdir=FLAGS.train dir, 
init_op=init_op， 
recovery_wait_secs=1， 
global_step=global_step) 
# 配置 分 布 式 会 话 : 
# 在 没有 可 用 的 GPU 时 ， 将 操作 放置 到 CPU 
# 不 打印 设备 放置 信息 
# 过 滤 未 绑 定 在 PS 和 worker 上 的 操作 
sess_config = tf.ConfigProto( 
allow_soft_placement=True, 
log device placement=False, 
device filters=["/job:PS", "/job:worker/task:%d" % FLAGS.task_index]) 


# 如 果 是 chief worker， 则 初始 化 所 有 worker 的 分 布 式 会 话 
if is_chief: 


print("Worker %d: Initializing session..." % FLAGS.task_index) 
## 如 果 是 其 他 worker， 则 等 待 chief worker 返回 的 会 话 
else: 

print("Worker %d: Waiting for session to be initialized..." % 


FLAGS .task_index) 
sess = sv.prepare or wait for_session(server.target, config=sess_config) 


print("Worker %d: Session initialization complete." % FLAGS.task_ index) 
# 如 果 是 同步 更 新 模式 ， 并 且 当 前 进程 为 chief worker 
if FLAGS.sync_replicas and is_chief : 
# 初始 化 同步 标记 队列 
sess.run(sync_init_op) 
# 通过 QueueRunner 启动 3 个 线程 ， 并 运行 各 自 的 标准 服务 
sv.start_queue_runners(sess, [chief_ queue_runner]) 


# 记录 并 打印 训练 开始 前 的 时 间 

time_begin = time.time() 

print("Training begins @ %f" % time_ begin) 

# 将 local_step 赋值 为 8 

local_step = 6 

while True: 
# 填充 训练 数据 
batch xs, batch ys = mnist.train.next_batch(FLAGS.batch_size) 
train_ feed = {x: batch xs, y_: batch_ ys} 
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# 执行 单 步 训练 操作 
_,， Step = sess.run([train op, global_step], feed dict=train feed) 
local_step += 1 
# 记录 并 打印 完成 当前 单 步 训练 所 需 的 时 间 
now = time.time() 
print("%f: Worker %d: training step %d done (global step: %d)" % 
(now, FLAGS.task_index, local_ step, step)) 
# 如 果 当 前 超过 最 大 训练 步 数 ， 退 出 训练 循环 
if step >= FLAGS.train_steps: 
break 
# 记录 并 打印 训练 结束 的 时 间 
time_end = time.time() 
print("Training ends @ %f" % time_end) 
# 总 训练 时 间 为 两 者 的 时 间 差 
training time = time_ end - time _ begin 
print("Training elapsed time: %f s" % training time) 


# 填充 验证 数据 

val_feed = {x: mnist.validation.images, y_: mnist.validation.1labels} 

# 在 验证 数据 集 上 计算 模型 的 交 又 炳 

val_xent = sess.run(cross_entropy, feed dict=val_ feed) 

print("After %d training step(s), validation cross entropy = %g" % 
(FLAGS.train_steps, val_xent)) 


if _ name == "_ main _": 
tf.app.run() 
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本 章 以 用 户 编程 视角 切 人 , 结合 宏观 理论 与 最 佳 实践 , 全 方位 剖析 了 单机 程序 与 分 布 式 程序 
的 典型 编程 框架 。TensorFlow 的 编程 框架 兼 具 灵 活性 和 包容 性 ， 通 过 组 合 大 量 细 粒度 的 API， 人 多 
许 用 户 自由 地 设计 多 样 化 的 深度 学 习 应 用 程序 。 单 机 编程 框架 提供 对 “ 单 进程 、 多 设备 ”计算 模 
式 的 支持 ,以 数据 流 图 和 会 话 抽 象 为 用 户 提供 直观 易 用 的 深度 学 习 开 发 环境 。 分 布 式 编程 框架 提 
供 同步 优化 器 和 supervisor 机 制 ， 保 证 模型 训练 过 程 的 可 用 性 和 健壮 性 。 这 有 助 于 用 户 更 加 专 
注 算法 模型 的 设计 与 实现 , 从 而 不 需要 在 系统 层面 的 问题 上 消耗 太 多 精力 。TensorFlow 根据 数据 
流 图 的 构建 模式 和 模型 参数 的 更 新 机 制 , 将 常见 的 数据 并 行 模式 划分 为 4 种 不 同 的 类 型 。 读 者 应 
该 熟练 掌握 这 4 种 数据 并 行 模式 ， 这 有 助 于 理解 通用 的 机 器 学 习 程 序 设计 思想 。 


TensorBoard 可 视 化 工具 


在 算法 设计 过 程 中 , 开发 者 往往 需要 前 析 神 经 网 络 的 结构 和 数据 流 图 的 流程 。 在 模型 训练 过 
程 中 , 用 户 也 常常 需要 关注 参数 的 变化 趋势 和 模型 的 实时 效果 。 隐 泌 的 代码 和 单调 的 日 志 难 以 满 
足 上 述 需 求 ， 图 形 界 面 工具 的 出 现成 为 必然 。TensorBoard 是 TensorFlow 项 目 组 开发 的 深度 学 习 
可 视 化 工具 , 它 通 过 展示 直观 的 图 形 , 能 够 有 效 地 辅助 深度 学 习 程序 的 开发 者 和 使 用 者 理解 算法 
模型 及 其 工作 流程 。 本 章 首 先 介绍 TensorBoard 的 可 视 化 效果 和 典型 使 用 方法 ， 然 后 依次 讲解 
使 用 TensorBoard 可 视 化 数据 流 图 、 可 视 化 学 习 过 程 和 可 视 化 高 维 数据 的 最 佳 实践 。 同 时 ， 我 们 
会 在 各 节 穿 插 介 绍 与 TensorBoard 密切 相关 的 编程 接口 tf.summary 模块 的 组 成 结构 和 工作 
原理 。 


6.1 概述 


TensorBoard 的 实现 形态 为 Web 应 用 程序 ， 这 为 提供 分 布 式 、 跨 系统 的 图 形 界面 服务 带 来 了 
便利 。 本 节 通 过 直观 的 插图 给 出 典型 的 用 例 ， 向 读者 展示 TensorBoard 的 基本 功能 。 


TensorBoard Web 界面 的 顶部 菜单 栏 列 出 了 7 个 功能 面板 的 链接 ,这 些 面 板 分 别 用 于 展示 不 
同 的 可 视 化 对 象 。 其 中 ，SCALARS 面板 展示 标量 值 随时 间 变 化 的 关系 图 ，IMAGES 和 AUDIO 
面板 分 别 展 示 图 像 和 音频 数据 ，GRAPHS 面板 展示 数据 流 图 ，DISTRIBUTIONS 和 
HISTOGRAMS 面板 分 别 展示 向 量 值 的 数据 分 布 和 统计 信息 , EMBEDDINGS 面板 则 用 于 展示 
降 维 后 的 高 维 数据 。 
图 6-1 展示 了 使 用 TensorBoard 可 视 化 MNIST softmax 模型 对 应 的 数据 流 图 。 在 使 用 TensorFlow 
开发 模型 的 过 程 中 , 用 户 设计 的 数据 流 图 往往 十 分 复杂 ， 其 中 可 能 包含 少 则 成 几 百 条 、 多 则 上 万 
条 数据 流 或 控制 流 。 如 果 没 有 一 个 合适 的 工具 展示 模型 对 应 的 数据 流 图 , 那么 调试 的 效率 将 会 非 
常 低下 。 为 此 ，TensorBoard 的 GRAPHS 面板 实现 了 数据 流 图 的 可 视 化 功能 ， 能 够 分 级 显示 子 图 
和 子 节点 ， 这 可 以 大 大 提升 静态 调试 模型 结构 的 效率 。 
图 6-2 展示 了 使 用 SCALARS 面板 可 视 化 模型 训练 过 程 中 准确 率 和 交叉 焙 随 时 间 的 变化 。 随 
着 训练 步 数 的 增加 ,准确 率 不 断 上 升 ， 交叉 炉 不 断 减 小 ， 表示 模型 在 训练 集 上 的 预测 结果 越 来 越 
准确 。 为 了 更 好 地 理解 模型 的 训练 过 程 ， 我 们 除了 可 以 可 视 化 准确 率 和 交叉 炉 这 类 度量 指标 外 ， 
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也 可 以 将 模型 参数 张 量 中 所 有 元 素 的 数据 分 布 和 统计 信息 可 视 化 ,事实 上 ,除了 模型 的 训练 过 程 ， 
还 可 以 将 模型 的 验证 过 程 和 测试 过 程 中 的 度量 指标 和 模型 参数 可 视 化 , 我们 将 其 统一 称 为 可 视 化 
学 习 过 程 。 
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图 6-1 使 用 TensorBoard 可 视 化 数据 流 图 
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图 6-2 使 用 TensorBoard 可 视 化 学 习 过 程 
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在 深度 学 习 和 机 器 学 习 任务 中 ， 可 视 化 高 维 数据 ( 如 模型 参数 ) 常常 是 个 令 人 头疼 的 问题 ， 
好 在 TensorBoard 能 够 提供 这 项 能 力 。 图 6-3 给 出 了 一 个 示例 。 在 本 例 中 , 我 们 首先 使 用 工 SNE 
方法 将 MNIST 测试 集中 的 手写 体 图 像 数 据 转 换 成 的 高 维 数据 降 到 三 维 , 然后 将 每 张 图 像 的 三 维 
数据 对 应 生成 三 维 直角 坐标 系 中 的 一 个 点 ， 最 终 展 示 出 总 共 10000 个 图 像 数据 在 三 维 直角 坐标 
系 中 的 分 布 情况 。 不 难 发 现 ， 数 字 相同 的 手写 体 图 像 大 多 分 布 在 一 块 空间 。 随 着 训练 步 数 的 增 
加 ， 模 型 分 类 的 效果 也 会 越 来 越 好 。 通 过 可 视 化 模型 输出 的 高 维 数据 ， 我 们 可 以 直观 地 感受 模 
型 的 分 类 效果 。 
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图 6-3 使 用 TensorBoard 可 视 化 高 维 数据 
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从 上 面 展示 的 3 类 对 象 来 看 ，TensorBoard 的 可 视 化 效果 的 确 不 错 。 事 实 上 ，TensorBoard 在 
不 同 面板 下 展示 的 对 象 数据 均 来 自 于 TensorFlow 程序 生成 的 序列 化 数据 ， 有 效 地 输出 这 些 数据 
是 使 用 TensorBoard 的 关键 所 在 。 下 面 我 们 简要 介绍 TensorBoard 的 使 用 流程 。 


图 6-4 给 出 了 TensorBoard 的 典型 使 用 流程 。 我 们 想 要 可 视 化 的 数据 是 数据 流 图 和 操作 输出 
的 张 量 , 它们 只 有 在 会 话 中 加 载 或 执行 后 才能 获取 。 这 里 先 不 细 究 如 何 获取 到 序列 化 的 数据 流 图 
和 张 量 数据 ， 假 设 它们 已 经 就 绪 。 接 下 来 ， 用 户 需 要 使 用 Filewriter 实例 将 这 些 数 据 写 入 事件 
文件 。 最 后 ， 启 动 TensorBoard 程序 ， 加 载 事 件 文件 中 的 序列 化 数据 ， 从 而 可 以 在 各 个 面板 中 展 
示 对 应 的 可 视 化 对 象 。 
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图 6-4 ”TensorBoard 的 使 用 流程 


这 里 使 用 的 FileWriter 实例 和 汇总 操作 (summary ops ) 均 属于 tf.summary 模块 ， 而 这 个 
模块 贯穿 TensorBoard 的 整个 使 用 流程 。 因 此 ， 这 里 简单 介绍 一 下 这 个 模块 ， 它 的 主要 功能 是 获 
取 和 输出 模型 相关 的 序列 化 数据 .如 图 6-5 所 示 , 它 的 核心 部 分 由 一 组 汇总 操作 以 及 FileWriter、 
Summary 和 Event 这 3 个 类 组 成 。 
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图 6-5 _ tf.summary 模块 的 组 成 结构 


汇总 操作 主要 负责 获取 数据 流 图 上 的 张 量 , 包括 用 户 定义 的 度量 指标 、 模 型 参数 、 音 频 和 图 
像 数据 等 。 汇 总 操作 与 计算 操作 输出 的 张 量 不 同 ， 前 者 存储 的 是 符合 TensorFlow 项 目 组 预定 义 
数据 结构 的 序列 化 数据 ( ProtocolBuffers )， 后 者 包含 的 是 具体 的 张 量 值 。merge_al1 方法 将 所 有 
的 汇总 操作 汇聚 在 一 起 ， 生 成 了 一 个 聚集 操作 merged。 它 是 所 有 汇总 操作 的 后 置 操 作 ， 只 要 用 
户 执行 了 merged 操作 ， 就 等 同 于 执行 了 所 有 的 汇总 操作 。 

Filewriter 类 负责 向 事件 文件 写 入 序列 化 数据 ， 包 括 汇总 数据 、 事 件数 据 和 数据 流 图 等 。 
其 中 ， 汇 总 数据 符合 tensorflow/core/framework/summary.proto 文件 定义 的 数据 结构 ， 表 示 一 组 将 
被 可 视 化 的 具名 数值 ， 包 括 图 像 数 据 、 音 频数 据 等 ; 事件 数据 符合 tensorflow/core/util/event.proto 
文件 定义 的 数据 结构 ， 表 示 在 会 话 中 执行 操作 时 产生 的 事件 信息 ,包括 时 间 戳 、 全 局 步 数 等 ; 数 
据 流 图 符合 tensorflow/core/framework/graph.proto 文件 定义 的 数据 结构 ， 表 示 当 前 会 话 加 载 的 默 
认 数 据 流 图 ， 包 括 图 上 所 有 的 节点 和 有 向 边 ， 以 及 图 的 版 本 号 等 。 图 6-5 中 的 summary 类 便 是 
summary.proto 文件 定义 的 汇总 数据 ， 而 Event 类 便 是 event.proto 文件 定义 的 事件 数据 。 


由 
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6.2 可视化 数据 流 图 


在 使 用 TensorFlow 创建 模型 的 过 程 中 ,通常 难以 确保 代码 生成 的 数据 流 图 与 自己 设想 的 拓 
扑 结 构 完 全 一 致 。 当 模型 输出 无 效 结果 时 , 往往 需要 调试 程序 。 对 于 网 络 结构 简单 的 小 模型 来 说 ， 
或 许可 以 通过 阅读 代码 和 手绘 数据 流 图 查 错 。 但 是 对 于 深度 神经 网 络 这 类 复杂 模型 来 说 , 手绘 数 
据 流 图 不 仅 效 率 低下 ， 而 且 容 易 产生 错误 。 因 此 ， 我 们 需要 学 会 使 用 TensorBoard 可 视 化 数据 流 
图 。 本 节 首 先 介绍 使 用 名 字 作 用 域 定义 抽象 节点 的 方法 , 接着 介绍 可 视 化 MNIST softmax 模型 的 
数据 流 图 的 最 佳 实践 。 最 后 ， 详 细 介绍 summary.proto 和 event.proto 中 定义 的 汇总 数据 和 事件 数 
据 的 数据 结构 ， 以 及 Filewriter 类 的 工作 原理 。 


6.2.1 名 字 作用 域 与 抽象 节点 


经 过 前 面 几 童 的 学 习 , 我 们 知道 根据 功能 不 同 , 数据 流 图 节点 可 以 分 为 计算 节点 、 存 储 节点 、 
数据 节点 和 汇总 节点 。 本 节 引 入 一 个 新 概念 一 一 抽象 节点 。 与 之 前 介绍 的 节点 相 比 ， 它 并 不 代表 
一 个 具体 的 操作 , 而 是 代表 一 组 特定 操作 的 集合 。 将 同一 层 网 络 或 具有 相同 功能 的 操作 整合 为 一 
个 抽象 节点 ， 可 以 简化 数据 流 图 的 网 络 结构 。 

下 面 我 们 以 MNIST softmax 模型 的 数据 流 图 为 例 ， 对 比 使 用 抽象 节点 前 后 网 络 结构 的 复杂 
度 。 如 图 6-6 所 示 ， 左 图 是 直接 使 用 TensorBoard 可 视 化 的 MNIST softmax 模型 的 数据 流 图 ， 整 
幅 图 看 起 来 比较 凌乱 ， 并 且 缺 少 后 向 图 的 部 分 。 右 图 是 使 用 抽象 节点 分 别 整合 了 模型 输入 、 
softmax 层 、 准 确 率 、 交 又 焙 和 训练 参数 的 后 向 图 的 数据 流 图 。 右 图 整体 看 起 来 非常 简洁 ， 而 且 
各 个 模块 的 功能 和 前 后 依赖 也 很 清晰 。 左 右 对 比 ， 不 难 发 现 使 用 抽象 节点 的 好 人 处。 


cross_entropy 


accuracy 


softmax_layer 


图 6-6 ”MNIST softmax 模型 的 数据 流 图 ( 左 ) 和 使 用 抽象 节点 后 的 数据 流 图 ( 右 ) 
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虽然 MNIST softmax 模型 仅 包含 一 层 softmax 网 络 层 ， 但 是 如 果 不 做 任何 处 理 直 接 可 视 化 ， 
它 的 数据 流 图 网 络 结构 仍 稍 显 复 杂 。 试 想 如 果 直 接 可 视 化 深度 神经 网 络 模型 ， 如 VGG-NET、 
ResNet 等 包含 成 千 上 万 个 节点 的 复杂 模型 , 可 能 就 会 陷入 节点 间 的 复杂 网 络 关系 , 难以 迅速 从 高 
层 的 视角 定位 数据 流 图 网 络 结构 上 的 问题 。 因 此 ,针对 可 视 化 深度 神经 网 络 模 型 的 场景 , 我 们 应 
该 尽 可 能 使 用 抽象 节点 整合 相同 的 网 络 层 或 功能 模块 。 抽象 节 点 是 数据 流 图 上 的 子 图 , 其 内 部 展 
开 后 并 没有 丢失 节点 间 的 拓扑 关系 。 相 比 直 接 可 视 化 数据 流 图 ， 它 的 层次 化 结构 更 清晰 明了 。 

下 面 介绍 使 用 名 字 作 用 域 定义 数据 流 图 上 抽象 节点 的 方法 。 相 比 只 作用 于 存储 节点 的 变量 作 
用 域 ， 名 字 作 用 域 更 通用 ,因为 它 对 计算 、 存 储 和 数据 节点 都 有 效 。 同 一 名 字 作 用 域 下 的 所 有 节 
点 继承 相同 的 名 字 前 绥 , 在 数据 流 图 上 体现 为 该 作用 域 下 的 所 有 节点 汇集 成 了 同一 个 节点 , 如 图 
6-6 中 的 右 图 所 示 。 


我 们 使 用 tf .name_scope 方法 创建 名 字 作 用 域 。 下面 的 代码 定义 了 图 6-6 右 图 中 的 softmax_ 
layer 抽象 节点 ， 它 的 内 部 包括 图 6-6 左 图 中 的 add、MatMul、Variable 和 Variable_1 节点 : 
with tf.name_scope('softmax_layer'): 
weights = tf.Variable(tf.zeros([784，16])) 


biases = tf.Variable(tf.zeros([16])) 
y = tf.matmul(x, weights) + biases 


虽然 图 6-6 右 图 的 整体 结构 简洁 ， 但 是 一 旦 展开 抽象 节点 ， 就 会 发 现 其 内 部 仍然 比较 凌乱 ， 
如 图 6-7 左 图 所 示 。 


人 


图 6-7 一 层 结构 的 softmax layer 抽象 节点 ( 左 ) 和 两 层 结构 的 softmax layer 抽象 节点 ( 右 ) 


既然 如 此 ， 我 们 需要 进一步 学 习 如 何 更 优雅 地 构造 数据 流 图 的 层次 化 结构 。 利 用 tf.name_ 
scope 方法 支持 能 套 定义 名 字 作 用 域 的 特点 , 下 面 的 代码 定义 了 图 6-7 右 图 的 softmax layer 抽象 
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节点 , 其 内 部 3 个 节点 的 完整 名 称 分 别 是 softmax layer/weights 、softmax layer/biases 和 softmax 
layer/Wx_ _ plus b: 
with tf.name_scope('softmax_layer'): 
with tf.name_scope('weights'): 
weights = tf.Variable(tf.zeros([784，16])) 
with tf.name_scope('biases'): 
biases = tf.Variable(tf.zeros([16])) 
with tf.name_scope('Wx_plus_b'): 
y = tf.matmul(x, weights) + biases 


在 TensorBoard 的 GRAPHS 功能 面板 下 ， 我 们 可 以 点 击 数据 流 图 中 的 + 按钮 展开 任意 的 抽象 
节 上 点。 相反， 我 们 可 以 点 击 数据 流 图 中 的 -按钮 折 又 任意 的 抽象 节点 。 通 过 定义 恰当 的 名 字 作 用 
域 , 数据 流 图 的 网 络 结构 能 够 变 得 更 加 清晰 。 当 创建 复杂 的 神经 网 络 模 型 时 , 读者 有 必要 为 各 个 
节点 添加 合适 的 名 字 作用 域 。 


6.2.2 可视化 数据 流 图 的 最 佳 实践 


MNIST softmax 模型 作为 经 典 的 手写 体 数字 识别 模型 ， 不 仅 网 络 结构 简单 ， 而 且 识 别 正确 率 
也 不 错 ， 故 常 作为 神经 网 络 模型 入 门 的 最 佳 代 表 。 本 节 以 MNIST softmax 模型 为 例 ， 介 绍 使 用 
TensorBoard 可 视 化 其 数据 流 图 的 步骤 和 方法 。 

根据 图 6-4 展示 的 TensorBoard 典型 使 用 流程 , 我 们 将 可 视 化 数据 流 图 简化 为 以 下 3 个 步骤 ; 

(1) 创建 数据 流 图 ; 

(2) 创建 Filewriter 实例 ; 

(3) 启动 TensorBoard 程序 。 

下 面 详细 介绍 各 个 步骤 的 实现 方法 。 

(1) 创建 数据 流 图 ， 并 使 用 名 字 作 用 域 将 同一 网 络 层 或 相同 功能 模块 的 节点 定义 为 同一 个 抽象 
节点 ， 如 输入 模块 、softmax 网 络 层 、 交 叉 箭 、 优 化 器 和 准确 率 。 同 时 ， 对 于 同一 个 抽象 节点 内 部 
包含 多 个 节点 的 情况 ， 可 以 扔 套 使 用 名 字 作用 域 ， 使 得 数据 流 图 的 网 络 结构 更 加 清晰 : 

from _ future_ _ import absolute import 


from _ future__ import division 
from _ future__ import print_function 


import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 
# 获取 MNIST 数据 集 
mnist = input_data.read data_ sets('/tmp/data/mnist', one_hot=True) 
# 输入 模块 
with tf.name_scope('input'): 
x = tf.placeholder(tf.float32, [None, 784], name='x-input') 
y_ = tf.placeholder(tf.float32, [None, 16], name="'y-input') 
# softmax 网 络 层 
with tf.name_scope('softmax_layer'): 
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with tf.name_scope('weights'): 
weights = tf.Variable(tf.zeros([784，16])) 
with tf.name_scope('biases ' ) : 
biases = tf.Variable(tf.zeros([16])) 
with tf.name_scope('Wx_plus_b'): 
y = tf.matmul(x, weights) + biases 
# 交 又 灶 
with tf.name_scope('cross_entropy '): 
diff = tf.nn.softmax_cross_entropy_with_logits(1labels=y_ ，1ogits=y) 
with tf.name_scope('total ' ) : 
cross_entropy = tf.reduce_mean(diff) 
tf.summary.scalar('cross_entropy', cross_entropy) 
# 优化 器 
with tf.name_scopel'train'): 
train_step = tf.train.Adamo0ptimizer(8.961) .minimize( 
cross_entropy) 
# 准确 率 
with tf.name_scope(' accuracy ' ) : 
with tf.name_scope('correct prediction'): 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
with tf.name_scope('accuracy'): 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


(2) 创建 Filewriter 实例 ， 并 将 第 (1) 步 中 创建 的 数据 流 图 写 入 事件 文件 。Filewriter 构造 
方法 的 第 一 个 参数 logdir 是 必须 设置 的 ， 它 表示 FilewWriter 实例 创建 的 事件 文件 的 目录 。 由 
于 同一 个 模型 可 能 训练 多 次 ，Filewriter 会 自动 为 每 次 训练 创建 各 自 的 事件 文件 。 当 我 们 向 
Filewriter 实例 的 构造 方法 传人 数据 流 图 时 ， 它 也 会 自动 将 该 数据 流 图 写 人 事件 文件 中 

# 创建 交互 式 会 话 

sess = tf.InteractiveSession() 

# 创建 FileWriter 实例 ， 并 传 入 当前 会 话 加 载 的 数据 流 图 

writer = tf.summary.FileWriter('/tmp/summary/mnist', sess.graph) 

# 初始 化 全 局 变量 

tf.global_variables_ initializer().run() 

# 关闭 FileWriter 的 输出 流 

writer.close() 


(3) 启动 TensorBoard 程序 ， 并 设置 logdir 参数 为 第 2) 步 中 定义 的 事件 文件 目录 。 当 同一 个 
模型 训练 多 次 后 , TensorBoard 可 以 将 该 目录 下 的 所 有 事件 文件 的 数据 组 合 在 一 起 。 在 TensorBoard 
的 Web 界面 上 呈现 时 ， 用 户 只 会 看 到 数据 的 连续 变化 ， 而 不 会 感觉 到 可 视 化 的 结果 是 由 多 个 事件 
文件 组 成 的 。 因 为 数据 流 图 是 相对 静态 的 ， 所 以 不 会 受到 多 个 事件 文件 的 影响 。 相 关 代码 如 下 : 


$ tensorboard --logdir=/tmp/summary/mnist 
Starting TensorBoard 41 on port 6666 


TensorBoard 程序 默认 使 用 6006 端口 ,启动 程序 后 ,在 浏览 絮 地 址 栏 中 输入 <http://localhost: 
6666> , 然后 在 菜单 栏 中 选择 GRAPHS 功能 面板 ,就 可 以 看 到 如 图 6-7 右 图 所 示 的 MNIST softmax 
模型 的 数据 流 图 。 

6.2.3 扩展 阅读 : 汇总 数据 和 事件 数据 
前 面 已 经 多 次 提 到 汇总 数据 、 事 件数 据 及 其 数据 结构 所 在 的 文件 summary.proto 和 event.proto， 


146 第 6 章 TensorBoard 可 视 化 工具 


本 市 旨 在 说 明 它 们 各 自 的 定义 以 及 两 者 之 间 的 关系 。 
1. 汇总 数据 与 summary.proto 


汇总 数据 是 tf.summary.Summary 类 或 其 内 山 类 的 实例 。tf.summary.Summary 包含 3 个 内 
柑 类 一 一 Image 、Audio 和 Value， 它 们 分 别 表示 图 像 、 音 频 和 具名 数值 这 3 种 典型 数据 。 这 里 
摘 取 summary.proto 文件 的 代码 ， 展 示 tf.summary .Summary 类 及 其 3 个 内 山 类 的 定义 : 


message Summary { 

// 图 像 数据 

message Image { 
// 图 像 大 小 
int32 height = 1; 
int32 width = 2; 
// 颜色 空间 的 有 效 值 : 
// 1 - grayscale 灰 度 图 


// 2 - grayscale + alpha 带 透 明度 的 灰 度 图 
// 3 - RGB 彩色 图 

// 4 - RGBA 带 透 明度 的 彩色 图 

// 5 - DIGITAL_YUV 彩色 图 

// 6 - BGRA 32bit 位 图 


int32 colorspace = 3; 
// 编码 后 的 图 像 数 据 
bytes encoded image_string = 4; 
} 
// 音频 数据 
message Audio { 
// 音频 采样 率 ， 单 位 为 Hz 
float sample rate = 1; 
// 音频 通道 数 
int64 num_channels = 2; 
// 音频 的 总 帧 数 (每 通道 中 的 采样 数 ) 
int64 length_frames = 3; 
// 编码 后 的 音频 数据 
bytes encoded audio string = 4; 
// RFC 2645 格式 的 数据 类 型 描述 ， 如 "audio/wav" 
string content type = 5; 
} 
// 具名 数值 
message Value { 
// 输出 该 汇总 数据 的 节点 名 称 ， 如 "some_op" 
string node name = 7; 
// 数据 标签 ， 如 "op_name:value_name"。 
// 其 中 ,，"op_name" 通 过 层次 结构 能 够 设置 操作 所 属 的 集合 
string tag = 1; 


// 数据 标签 对 应 的 值 
oneof value { 
float simple value = 2; 
bytes obsolete old style histogram = 3; 
Image image = 4; 
HistogramProto histo = 5; 
Audio audio = 6; 
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TensorProto tensor = 8; 


} 


} 
// 该 汇总 数据 包含 的 具名 数值 数组 
repeated Value value = 1; 


} 
2. 事件 数据 与 event.proto 


事件 数据 是 tf.summary .Event 类 的 实例 。 事件 数据 表示 在 会 话 中 执行 操作 时 产生 的 事件 信 
息 ， 包 括 时 间 戳 、 全 局 步 数 ， 以 及 以 oneof ( 多 选 一 ) 方式 定义 的 具体 事件 信息 。 对 于 一 个 特定 
的 事件 实例 , 事件 信息 只 能 从 以 下 字段 中 选择 一 种 : 文件 版 本 号 、 编 码 后 的 数据 流 图 、 汇 总 数据 、 
TensorBoard 日 志 、 会 话 状 态 、 元 数据 和 编码 后 的 元 数据 流 图 一 一 它们 分 别 代 表 相 应 类 型 对 象 的 
创建 事件 。 下 面 是 我 们 从 event.proto 文件 中 摘 取出 tf .summary.Event 类 的 定义 : 


message Event { 

// 时 间 惟 

double wall time = 1; 

// 全 局 步 数 

int64 step = 2; 

oneof what { 
// 文件 版 本 号 
string file version = 3; 
// 编码 后 的 数据 流 图 
bytes graph _ def = 4; 
// 汇总 数据 
Summary summary = 5; 
// 由 Python 的 tensorboard logging 模块 生成 的 日 志 
LogMessage log message = 6; 
// 会 话 日 志 ， 以 便 在 程序 崩溃 后 重启 会 话 
SessionLog session log = 7; 
// 调用 session.run() 后 返回 的 元 数据 
TaggedRunMetadata tagged_run metadata = 8; 
// 编码 后 的 元 数据 流 图 
bytes meta_ graph def = 9; 

} 

} 


可 以 看 出 ， 只 要 补充 了 时 间 蕉 和 全 局 步 数 ， 我 们 就 可 以 将 汇总 数据 转换 为 事件 数据 。 同 理 ， 
数据 流 图 、 会 话 日 志 等 也 可 以 转换 成 事件 数据 。Filewriter 实例 写 入 的 序列 化 数据 其 实 就 是 事 
件数 据 ， 只 不 过 具体 事件 可 能 略 有 不 同 。 下 面 我 们 介绍 Filewriter 的 工作 原理 。 


6.2.4 扩展 阅读 : 揭秘 tf.summary.Filewriter 工 作 原 理 


根据 前 面 的 推论 ， 我 们 认为 Filewriter 向 事件 文件 中 写 和 人 的 是 事件 数据 ， 那 么 汇总 数据 和 
其 他 的 序列 化 数据 一 定 得 转换 为 事件 数据 。 此外, 因为 训练 过 程 会 产生 大 量 数据 , 所 以 Filewriter 
还 得 支持 并 行 地 更 新 事件 文件 .事实 上 , FileWriter 的 确 做 到 了 这 两 点 。 我 们 从 定义 FileWriter 
类 的 tensorflow/python/summary/writer/writer.py 文件 中 摘 取 出 它 的 构造 方法 ， 如 下 所 示 : 
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class FileWriter(SummaryToEventTransformer): 
def _ init (self, 

logdir, 
graph=None, 
max_queue=16， 
flush_secs=126， 
graph_def=None， 
filename_suffix=None) : 

# event_writer 是 EventFileWriter 的 实例 对 象 

event writer = EventFileWriter(logdir, max_queue, flush_secs) 

super(FileWriter, self)._ init (event writer, graph, graph_def) 


FileWriter 类 继承 自 SummaryToEventTransformer 类 。FileWriter 实例 包含 event_writer 
成 员 对 象 ， 后 者 是 EventFileWriter 的 实例 ， 提 供 向 事件 文件 中 写 入 事件 数据 的 能 力 。 因 此 ， 
FileWriter 内 部 实际 调用 的 是 event_writer 成 员 的 方法 来 完成 事件 文件 的 创建 和 更 新 。 下 面 
我 们 介绍 构造 方法 中 的 输入 参数 。logdir 和 graph 分 别 指 存储 事件 文件 的 目录 和 会 话 中 加 载 的 
数据 流 图 。max_queue 是 缓存 事件 数据 的 队列 大 小 。flush_secs 是 定期 刷新 事件 数据 缓存 队列 
的 时 间 ,， 单位 为 秒 。 因 为 Filewriter 支持 多 线程 并 行 更 新 事件 文件 ， 所 以 它 和 输入 流水 线 一 样 需 
要 多 个 缓存 队列 来 提升 效率 。graph_def 是 一 个 被 遗弃 的 参数 ， 现 在 直接 使 用 graph 参数 蔡 代 它 。 
FileWriter 构造 方法 仍然 保留 该 参数 ， 是 为 了 兼容 基于 低 版 本 TensorFlow 开发 的 程序 。 
filename_suffix 参数 设置 事件 文件 的 名 称 后 级。 

当 我 们 创建 Filewriter 实例 时 ， 它 的 构造 方法 会 在 logdir 目录 下 创建 一 个 事件 文件 。 对 于 
用 户 显 式 传 人 graph 参数 的 情况 , 因为 Filewriter 的 构造 函数 内 部 调用 了 基 类 SummaryToEvent 
Transformer 的 构造 方法 ， 所 以 后 者 将 会 调用 add_graph 成 员 方 法 将 序列 化 后 的 数据 流 图 写 和 人 
事件 文件 。 除 了 数据 流 图 外 ， 表 6-1 列 出 了 FileWriter 写 其 他 序列 化 数据 的 成 员 方法 ， 它 们 都 
是 继承 自 SummaryToEventTransformer 的 成 员 方法 。 它 们 的 内 部 也 都 调用 了 event_pb2.Event 
方法 将 这 些 序列 化 数据 转换 成 事件 数据 , 然后 调用 event_writer 的 add_event 方法 将 事件 数据 
写 和 人 用户 指定 的 事件 文件 中 。 

表 6-1 Filewriter 写 序 列 化 数据 的 成 员 方法 


方法 名 称 功能 说 明 
add_event 添加 事件 数据 到 事件 文件 
add_graph 添加 数据 流 图 到 事件 文件 
add_meta_graph 添加 元 数据 流 图 到 事件 文件 
add_run_metadata 添加 元 数据 信息 到 事件 文件 
add_session log 添加 会 话 日 志 到 事件 文件 
add_summary 添加 汇总 数据 到 事件 文件 


add_* 方 法 并 不 会 立即 将 数据 写 入 事件 文件 。 如 果 用 户 设置 了 flush_secs 参数 , FileWriter 
便 会 定期 将 事件 数据 缓存 队列 中 的 数据 写 入 事件 文件 。 或 者 ， 用 户 还 可 以 调用 flush 成 员 方 法 , 手 
动 刷新 事件 数据 缓存 队列 。 除 此 以 外 ， 表 6-2 还 列 出 了 Filewriter 管理 事件 文件 的 其 他 成 员 方法 。 
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表 6-2 Filewriter 管理 事件 文件 的 成 员 方法 


方法 名 称 功能 说 明 
get_logdir 获取 事件 文件 的 目录 
flush 将 事件 数据 缓存 队列 中 的 所 有 数据 添加 到 事件 文件 中 
close 先 调用 flush 方法 ， 然 后 关闭 事件 文件 流 
reopen 如 果 调 用 了 close 方法 ， 则 重新 打开 事件 文件 流 ， 并 在 logdir 目录 下 新 建 一 个 事件 文件 ; 否 
则 ， 不 做 任何 操作 


6.3 ”可视化 学 习 过 程 


使 用 TensorFlow 训练 深度 神经 网 络 模型 的 过 程 是 复杂 而 漫长 的 ， 同 时 也 像 黑 盒子 一 样 充满 
了 不 确定 性 。 为 了 清晰 地 理解 深度 神经 网 络 模型 的 训练 过 程 ， 同 时 方便 地 调试 和 优化 训练 程序 ， 
读者 有 必要 掌握 TensorBoard 可 视 化 学 习 的 方法 和 对 应 的 汇总 操作 。TensorBoard 支持 的 可 视 化 对 
象 主要 包括 模型 参数 和 训练 指标 随时 间 的 变化 情况 、 特 定 值 的 数据 分 布 和 统计 信息 等 。 


6.3.1 汇总 操作 概述 


汇总 操作 也 是 TensorFlow 的 操作 , 它 的 输入 输出 也 是 张 量 。 但 汇总 操作 与 第 3 章 中 介绍 的 3 
类 操作 略 有 不 同 ， 因 为 它 的 输出 是 汇总 数据 。 用 户 需 要 将 这 些 汇总 数据 写 人 到 事件 文件 中 ， 
TensorBoard 程序 才能 顺利 加 载 并 可 视 化 它们 。 为 了 在 会 话 运行 过 程 中 收集 这 些 汇总 数据 ， 用 户 
需要 添加 汇总 操作 ， 即 在 数据 流 图 中 添加 对 应 的 汇总 节点 。 因 此 , 我们 认为 汇总 节点 是 有 别 于 计 
算 节 点 、 存 储 节 点 和 数据 节点 外 的 第 四 类 节点 ， 它 的 输出 是 特定 0 表 6-3 列 出 了 4 种 
典型 汇总 操作 的 功能 说 明 。 在 会 话 中 执行 这 些 汇总 操作 , 便 可 以 获取 一 条 汇总 数据 。 执 行 频率 越 
高 ,“ 采 样 率 ” 越 高 。 在 资源 充裕 的 情况 下 ， 甚 至 每 一 步 训练 都 可 以 执 和 操作 ， 但 这 
可 能 导致 资源 开销 倍增 。 


后 


表 6-3 典型 的 4 种 汇总 操作 


操作 名 称 功能 说 明 
tf. summary.scalar 获取 一 条 带 有 标量 值 的 汇总 数据 
tf.summary.histogram 获取 一 条 带 有 统计 值 的 汇总 数据 
tf.summary.image 获取 一 条 带 有 图 像 的 汇总 数据 
tf. summary .audio 获取 一 条 带 有 音频 的 汇总 数据 


在 表 6-3 列 出 的 4 种 汇总 数据 中 ， 标 量 值 和 统计 值 对 应 summary.proto 文件 定义 的 具名 数值 
(Value ) a 般 类 ，image 和 audio 则 分 别 对 应 图 像 (Image ) 和 音频 (Audio ) 内 骨 类 。 下 面 我 
们 依次 介绍 这 4 种 汇总 操作 输出 的 使 用 方法 和 对 应 汇总 数据 的 可 视 化 效果 。 
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6.3.2 ”使 用 tf.summary.scalar 生 成 折线 图 


在 会 话 中 执行 tf.summary.scalar 操作 ， 可 以 获取 一 条 带 有 标量 值 的 汇总 数据 。 表 6-4 列 
出 了 该 操作 的 输入 参数 的 功能 说 明 。 其 中 ,collections 参数 的 默认 值 为 Graphkeys.SUMMARIES ， 
因此 所 有 的 汇总 操作 默认 都 属于 关键 字 为 GraphKeys .SUMMARIES 的 操作 集合 。 


表 6-4 tf.summary.scalar 的 输入 参数 


参数 名 称 功能 说 明 
name 生成 的 汇总 节点 名 称 ， 同 时 也 是 TensorBoard 中 显示 的 名 称 
tensor 对 应 标量 值 的 张 量 
collections 汇总 操作 所 属 集合 的 关键 字 


下 面 是 生成 图 6-2 的 部 分 代码 : 


with tf.name_scope('cross_entropy'): 
diff = tf.nn.softmax_cross_entropy with logits(labels=y_, logits=y) 
with tf.name_scopel'total'): 
cross_entropy = tf.reduce mean(diff) 
# 添加 获取 交 又 灶 的 汇总 操作 
tf.summary.scalar('cross_entropy', cross_entropy) 


with tf.name_scope('train' ) : 
train_step = tf.train.AdamOptimizer(8.061).minimize( 
cross_entropy) 


with tf.name_scope('accuracy'): 
with tf.name_scope('correct prediction'): 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
with tf.name_scope('accuracy'): 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
# 添加 获取 准确 率 的 汇总 操作 
tf.summary.scalar('accuracy', accuracy) 
# 聚集 汇总 操作 
merged = tf.summary.merge_all() 
# 省 略 中 间 步 骤 
for i in range(FLAGS .max_step) : 
if i % FLAGS.summary_step == 6: 
# 获取 汇总 数据 和 准确 率 
summary, acc = sess.run([merged, accuracy], feed dict=feed dict(False)) 
# 向 事件 文件 中 写 入 汇总 数据 ， 并 传 入 全 局 步 数 
writer.add_summary(summary, i) 


结合 上 一 节 学 习 的 名 字 作 用 域 ， 我 们 重点 关注 tf. summary .scalar 操作 的 用 法 。 这 里 先后 
调用 了 两 次 tf.summary.scalar 操作 ,分别 添 加 了 输出 交叉 焙 和 准确 率 的 汇总 操作 。 随 后 ， 我 
们 调用 tf.summary .merge_all 方法 添加 了 聚集 汇总 操作 merged 在 会 话 中 执行 merged 操作 便 
可 以 获取 所 有 的 汇总 数据 ， 然 后 可 以 使 用 Filewriter 将 其 写 人 事件 文件 中 。 


启动 TensorBoard 程序 并 读 取 上 面 代 码 生成 的 事件 文件 , 便 可 以 得 到 图 6-2 中 的 可 视 化 效果 。 
将 其 中 的 accuracy 窗口 展开 ， 我们 得 到 了 图 6-8 所 示 的 效果 。 下 面 依次 介绍 图 6-8 中 4 个 方 框 中 
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各 按钮 和 选项 的 功能 。 


首先 ， 将 鼠标 指针 移动 到 折线 上 ( 方 框 1 )， 可 以 得 到 对 应 时 刻 的 汇总 信息 (黑色 背景 框 )， 
如 光滑 值 、 实 际 值 、 训 练 步 数 、 时 间 惟 等 。TensorBoard 默认 会 用 不 同 的 颜色 显示 来 自 不 同事 件 
文件 的 数据 。 例 如 ， 图 6-8 分 别 显示 了 MNIST softmax 模型 在 训练 集 和 测试 集 上 的 结果 。 
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图 6-8 在 TensorBoard 中 放大 accuracy 窗口 的 折线 图 


TensorBoard 支持 下 载 任意 指标 随时 间 变 化 的 结果 ( 方 框 2 ), 目前 提供 CSV 和 JSON 两 种 数 
据 格 式 ， 并 提供 3 种 提示 信息 的 排序 方式 : 升序 、 降 序 或 时 间 序 


图 6-8 中 准确 率 折线 图 的 光滑 度 为 0.6 ( 方 框 3 )。 折 线 图 中 前 景 层 深 色 的 线条 为 按照 当前 光 


滑 值 近似 的 曲线 ， 背 景 层 浅 色 的 线条 为 实际 值 的 折线 。 光 滑 度 越 低 ， 曲 线 越 接近 真实 值 。 图 6-9 
展示 了 光滑 度 为 0.2 时 的 accuracy 折线 图 。 
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图 6-9 光滑 度 为 0.2 的 accuracy 折线 图 
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所 有 折线 图 的 横 轴 都 提供 3 种 显示 模式 ( 方 框 4): 训练 步 数 、 相 对 时 间 和 绝对 时 间 。 图 6-10 


和 图 6-11 分 别 给 出 了 以 相对 时 间 和 绝对 时 间 为 横 轴 的 accuracy 折线 图 。 
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6-10 ” 横 轴 为 相对 时 间 的 accuracy 折线 图 
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图 6-11 横 轴 为 绝对 时 间 的 accuracy 折线 图 


6.3.3 ”使 用 tf.summary .histogram 生 成 数据 分 布 图 


在 会 话 中 执行 tf.summary .histogram 操作 , 可 以 获取 一 条 带 有 统计 值 的 汇总 数据 。 它 的 输 
人 参数 与 tf.summary.scalar 操作 类 似 , 分 别 是 name 、values 和 collections。 其 中 , values 
可 以 是 任意 形状 的 张 量 ， 其 他 两 个 输入 参数 与 tf.summary.scalar 操作 没有 区 别 。 假 设 我 们 想 
要 查看 学 习 过 程 中 模型 权重 值 的 数据 分 布 和 统计 信息 ， 修 改 后 的 部 分 代码 如 下 所 示 : 


with tf.name_scope('softmax_layer'): 
with tf.name_scope('weights'): 
weights = tf.Variable(tf.zeros([784，16])) 
# 添加 获取 模型 权重 值 的 汇总 操作 
tf.summary.histogram('weights', weights) 


# 省 略 中 间 步 又 
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我 们 在 会 话 中 执行 merged 操作 后 ， 将 获取 的 模型 权重 值 的 汇总 数据 写 人 事件 文件 ， 然 后 启 
动 TensorBoard 程序 加 载 事件 文 件 ,。 最 终结 果 如 图 6-12 和 图 6-13 所 示 。 上 面 代码 生成 的 模型 权重 
的 数据 分 布 图 和 数据 统计 图 分 别 展现 在 DISTRIBUTIONS 和 HISTOGRAMS 面板 下 。 


在 图 6-12 所 示 的 DISTRIBUTIONS 面板 中 ， 上 图 和 下 图 分 别 为 测试 集 和 训练 集 上 模型 权 
重 的 数据 分 布 图 。 其 中 ， 坚 轴 是 参数 值 ， 横 轴 是 迭代 步 数 ， 图 中 颜色 深浅 表示 数据 分 布 的 稠密 
程度 。 一 开始 训练 时 ， 所 有 模型 权重 都 被 初始 化 为 0。 随 着 训练 步 数 的 增加 ， 权 重 和 矩阵 中 的 值 
也 开始 趋 于 高 斯 分 布 。 数 据 分 布 图 默认 只 有 图 6-12 下 图 的 大 小 , 我 们 需要 点 击 方 框 才 能 将 其 放 
大 到 上 图 的 大 小 。 
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图 6-12 模型 权重 的 数据 分 布 图 ( 男 见 彩 插 ) 


图 6-13 所 示 的 HISTOGRAMS 面板 以 另 一 种 形式 呈现 模型 权重 的 数据 分 布 ， 它 能 够 更 清楚 
地 体现 出 权重 矩阵 中 所 有 元 素 值 的 统计 信息 。 图 6-13 的 上 图 和 下 图 分 别 为 测试 集 和 训练 集 上 模 
型 权重 的 数据 统计 图 。 其 中 ， 竖 轴 是 迭代 步 数 。 步 数 越 大 ， 颜色 越 浅 、 层 次 越 靠 前 。 横 轴 是 权重 
值 , 每 个 取 值 都 表示 以 该 值 为 中 心 的 一 个 区 间 。 所 有 取 值 构成 一 个 等 差 数 列 ， 区 间 长 度 等 于 等 差 
数列 的 公差 ,例如 , 当 横 轴 的 取 值 为 [-3, -2, -1,0, 1, 2,3] 时 ,0 点 对 应 的 值 表示 权重 值 在 [-0.5, 0.5] 
区 间 的 元 素 个 数 。 模 型 权重 的 实际 分 布 决定 了 等 差 数 列 的 公差 。 权 重 分 布 越 稀 玻 ， 则 公差 越 大 ; 
分 布 越 稠密 ， 则 公差 越 小 。 在 HISTOGRAMS 面板 中 ,我 们 还 可 以 将 鼠标 指针 移 到 山峰 上 ， 以 便 
得 到 某 个 切面 的 详细 信息 。 以 图 6-13 为 例 ， 我 们 可 以 观察 到 ， 该 算法 模型 在 测试 集 上 迭代 到 第 
900 步 时 ， 以 0.0499 为 中 心 值 的 区 间 内 有 720 个 元 素 。 


154 第 6 章 TensorBoard 可 视 化 工具 


TensorBoard SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS C 。 EO) 


Write a regex to create a tag group 泛 softmax_layer 


口 Split on underscores | softmax_layer/weights/weights 
test 


Histogram Mode 
Offset Time Axis 


EE RELATIVE WALL 


Runs 

Write a regex to filter runs 
O 〇 test 

O tran 


TOGGLE ALL RUNS 


图 6-13 ”模型 权重 的 数据 统计 图 ( 男 见 彩 插 


We 


6.3.4 ”使 用 tf.summary .image 生 成 图 像 


在 会 话 中 执行 tf.summary .image 操作 ， 可 以 获取 一 条 带 有 图 像 的 汇总 数据 。 它 的 输入 参数 
如 表 6-5 所 示 。tensor 参数 必须 是 形 如 [batch_size, height, width，channels] 的 四 阶 张 量 ， 
表示 一 批 图 像 数 据 。batch_size 表示 这 批 图 像 数 据 的 个 数 ; height 和 width 分 别 表示 图 像 的 高 
度 和 宽度 ， 单 位 为 像素 ; channels 表示 图 像 的 通道 数 ， 即 色彩 类 型 ， 可 选 值 1、3、4 分 别 表示 
灰 度 图 ( Grayscale )、 彩 色 图 (RGB ) 和 带 透 明度 的 彩色 图 ( RGBA )。max_outputs 参数 表示 在 
TensorBoard 的 IMAGES 面板 演 染 图 像 的 最 大 个 数 ， 它 还 决定 了 这 些 图 像 的 标签 名 称 后 级 。 如 果 
max_outputs 设 为 1， 则 该 图 像 的 标签 为 {name}/image; 如 果 max_outputs 大 于 1， 则 这 批 图 
像 的 标签 按 顺 序 依次 是 {name}/image/6、{name}/image/1 等 。 


表 6-5 tf.summary.image 的 输入 参数 


参数 名 称 功能 说 明 
name 生成 的 汇总 节点 名 称 ， 同 时 也 是 TensorBoard 中 显示 的 名 称 
tensor 表示 图 像 数据 的 四 阶 张 量 
max_outputs TensorBoard 泻 染 图 像 的 最 大 个 数 
collections 汇总 操作 所 属 集合 的 关键 字 


我 们 现在 希望 可 视 化 MNIST 数据 集中 的 手写 体 图 像 ， 那 么 需要 将 手写 体 图 像 数 据 转换 为 
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tf.summary .image 操作 接受 的 四 阶 张 量 。MNIST 数据 集中 的 手写 体 图 像 数 据 是 形状 为 [1,784] 
的 张 量 ， 我 们 有 必要 将 其 转换 成 形 如 [-1, 28, 28, 1] 的 四 阶 张 量 。batch_size 设 为 -1 表示 图 像 个 
数 不 定 ， 在 运行 时 根据 形状 推导 赋值 ; height 和 width 均 设 为 28， 尺 寸 与 MNIST 数据 集中 的 
手写 体 图 像 尺 寸 保持 一 致 ， channels 设 为 1， 表 示 该 四 阶 张 量 需 要 转换 成 灰 度 图 。 然 后 ， 我 们 
将 该 张 量 传人 tf .summary.image 操作 ,在 会 话 中 执行 并 获取 到 带 有 批 图 像 的 汇总 数据 ,继而 使 
用 Filewriter 将 其 写 入 事件 文件 。 最 后 ， 使 用 TensorBoard 程序 加 载 事件 文件 ， 它 会 泻 染 出 如 
图 6-14 所 示 的 手写 体 图 像 。 对 应 的 代码 片段 如 下 所 示 : 


with tf.name_scope(' input ') : 
x = tf.placeholder(tf.float32, [None, 784], name='x-input') 
y_ = tf.placeholder(tf.float32, [None, 160], name='y-input') 


with tf.name_scope('input_reshape'): 
# 将 输入 图 像 x 转换 成 四 阶 张 量 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 
# 添加 获取 手写 体 图 像 的 汇总 操作 ， 设 置 最 大 生成 16 张 图 像 6 


tf.summary.image('input', image_shaped_input, 106) 


# 省 略 中 间 操 作 

为 max_outputs 参数 设置 为 10, 所 以 第 1 张 图 像 的 标签 名 称 是 input reshape/inputimage/0。 
其 中 ，input_reshape 是 该 汇总 操作 所 属 的 作用 域名 称 ，input 是 该 图 像 的 名 称 ，0 表示 它 是 这 批 
图 像 的 第 1 张 。 


TensorBoard SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS (7 . Be) 


Write a regex to create a tag group XK input_reshape 


Split on underscores | input_reshape/input/image/0 


test 
step 990 (Mon Jul 24 2017 00:25:48 GMT+0800 (CST)) 


图 6-14 MNIST 数据 集 的 手写 体 图 像 


6.3.5 ”使 用 tf.summary .audio 生 成 音频 


在 会 话 中 执行 tf.summary.audio 操作 ， 可 以 获取 一 条 融 有 音频 的 汇总 数据 。 它 的 输入 参数 
如 表 6-6 所 示 。tensor 参数 必须 是 形 如 [batch_size，frames，channels] 的 三 阶 张 量 或 形 如 
[batch_size，frames] 的 二 阶 张 量 ， 表 示 一 批 音频 数据 。batch_size 表示 这 批 音频 数据 的 个 
数 ; frames 表示 音频 帧 的 值 ， 取 值 范 围 为 [-1.0, 1.0]。sample_rate 参数 表示 音频 采样 率 。 
max_outputs 参数 表示 在 TensorBoard 的 AUDIO 面板 下 生成 音频 的 最 大 个 数 ， 它 同样 也 决定 了 
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该 音频 标签 名 称 的 后 级 。 标 签名 称 规则 与 tf. summary .image 一 样 ， 这 里 不 再 鳌 述 。 


表 6-6 tf.summary.audio 的 输入 参数 


参数 名 称 功能 说 明 
name 生成 的 汇总 节点 名 称 ， 同 时 也 是 TensorBoard 中 显示 的 名 称 
tensor 表示 音频 数据 的 三 阶 或 二 阶 张 量 
sample_rate 音频 采样 率 
max_outputs TensorBoard 生成 音频 的 最 大 个 数 
collections 汇总 操作 所 属 集合 的 关键 字 


因为 使 用 音频 数据 训练 的 模型 还 相对 较 少 , 加 之 不 便于 在 书 中 展示 , 所 以 我 们 不 再 给 出 对 应 
的 代码 片段 。 感 兴趣 的 读者 可 以 查看 Google Brain 的 magenta 项 目 ， 该 项 目 旨 在 使 用 机 器 学 习 模 
型 创造 艺术 和 音乐 作品 。 项 目 官网 地 址 是 https://magenta.tensorflow.org。 


6.3.6 可视化 MNIST softmax 模 型 学 习 过 程 的 最 佳 实践 


我 们 将 本 节 介 绍 的 汇总 操作 整合 在 一 起 , 以 MNIST softmax 模型 为 例 展示 一 个 完整 的 可 视 化 
学 习 过 程 的 最 佳 实践 。 下 述 代码 生成 的 文件 可 以 泻 染 出 多 种 不 同类 型 的 学 习 过 程 图 , 具体 包括 准 
确 率 和 交 又 烂 的 折线 图 、 模 型 参数 的 数据 分 布 图 和 数据 统计 图 ， 以 及 输入 手写 体 数 字 图 像 和 
MNIST softmax 模型 的 数据 流 图 : 


# 6.4 best practice.py 
# -*- coding:utf-8 -*- 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# 导入 MNIST 数据 集 
mnist = input_data.read data_ sets('/tmp/tensorflow/mnist/input_data', one_hot=True) 


with tf.name_scope('input'): 
x = tf.placeholder(tf.float32, [None, 784], name='x-input') 
y_ = tf.placeholder(tf.float32, [None, 16], name="'y-input') 


with tf.name_scope('input_reshape'): 
# 将 输入 图 像 x 转换 成 四 阶 张 量 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 
# 添加 获取 手写 体 图 像 的 汇总 操作 ， 设 置 最 大 生成 16 张 图 像 
tf.summary.image( "input'" ，image_shaped_input，16) 


with tf.name_scope('softmax_layer'): 
with tf.name_scope('weights'): 
weights = tf.Variable(tf.zeros([784，16])) 
# 添加 获取 模型 权重 值 的 汇总 操作 
tf.summary.histogram('weights', weights) 
with tf.name_scope('biases'): 
biases = tf.Variable(tf.zeros([16])) 
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# 添加 获取 模型 偏 置 值 的 汇总 操作 

tf.summary.histogram('biases', biases) 
with tf.name_scope('Wx_plus_b'): 

y = tf.matmul(x, weights) + biases 


with tf.name_scope('cross_entropy ) : 
diff = tf.nn.softmax_cross_entropy_with_logits(1labels=y_ ，1ogits=y) 
with tf.name_scope('total ' ) : 
cross_entropy = tf.reduce_mean(diff) 
# 添加 获取 交叉 粒 的 汇总 操作 
tf.summary.scalar('cross_entropy', cross_entropy) 


with tf.name_scope(l'train'): 
train_step = tf.train.Adam0ptimizer(8.961) .minimize( 
cross_entropy) 


with tf.name_scope('accuracy'): 
with tf.name_scope('correct prediction'): 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
with tf.name_scope('accuracy'): 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
# 添加 获取 准确 率 的 汇总 操作 
tf.summary.scalar('accuracy', accuracy) 


merged = tf.summary.merge_all() 
sess = tf.InteractiveSession() 


train writer = tf.summary.FileWriter('/tmp/summary/mnist' + '/train', sess.graph) 
test writer = tf.summary.FileWriter('/tmp/summary/mnist' + '/test') 
tf.global_variables_ initializer().run() 


def feed dict(train): 
""" 填 充 训 练 数据 或 测试 数据 的 方法 """ 
if train: 
xs, ys = mnist.train.next_batch(160, fake_data=False) 
else: 
xs, ys = mnist.test.images, mnist.test.1labels 
return {x: xs, y_: ys} 


for i in range(1666) : 
if i % 16 == 6: # 写 汇总 数据 和 测试 集 的 准确 率 
summary, acc = sess.run([merged, accuracy], feed dict=feed dict(False)) 
test writer.add_summary(summary, i) 
print('Accuracy at step %s: %s' % (i, acc)) 
else: # Record train set summaries, and train 
if i % 168 == 99: # 写 运 行 时 的 事件 数据 
run_options = tf.RunOptions(trace_ level=tf.RunOptions.FULL_TRACE) 
run_metadata = tf.RunMetadata() 
summary, = sess.run([merged, train_step], 
feed_dict=feed dict(True)， 
options=run_options， 
run_metadata=run_metadata) 
train writer.add_run_metadata(run metadata, 'step%63d' % i) 
train writer.add_summary(summary, i) 
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print('Adding run metadata for', i) 

else: # 写 汇总 数据 
summary, _ = sess.run([merged, train_step], feed dict=feed dict(True)) 
train writer.add_summary(summary, i) 


train_writer.close() 
test writer.close() 


6.4 ”可 视 化 高 维 数据 


本 节 讨 论 的 可 视 化 高 维 数据 特 指 能 人 表示 的 高 维 向 量 。 和 能 入 是 指 将 客观 世界 中 离散 的 物体 或 
对 象 (如 单词 、 短 语 、 图 片 等 ) 映射 到 特征 空间 中 的 操作 ， 艇 入 向 量 是 指 映射 后 的 特征 空间 中 连 
续 且 稠密 的 高 维 向 量 。 因 为 深度 学 习 和 机 器 学 习 的 大 多 数 模 型 都 是 为 稠密 的 连续 向 量 而 设计 的 ， 
所 以 租 入 表示 使 得 我 们 可 以 使 用 经 典 的 算法 模型 处 理 许多 离散 的 输入 向 量 。 

在 语音 识别 、 图 像 识 别 和 推荐 系统 等 经 典 的 深度 学 习 和 机 器 学 习 应 用 场景 中 , 我 们 通常 使 用 
脱 入 向 量 来 描述 客观 世界 的 物体 。 租 入 向 量 不 是 对 物体 进行 简单 编号 的 结果 , 而 是 在 尽量 保持 相 
似 性 不 变 的 前 提 下 对 物体 进行 特征 抽象 和 编码 的 产物 。 通 过 不 断 训 练 , 我 们 能 够 将 客观 世界 中 的 
物体 “不 失真 ”地 映射 到 高 维特 征 空 间 中 ,进而 可 以 使 用 这 些 般 入 向 量 实现 分 类 、 回 归 和 预测 等 
操作 。 为 了 能 够 一 宕 神经 网 络 黑 盒 中 的 真相 ， 有 必要 学 会 使 用 TensorBoard 提供 的 高 维 数据 可 视 
化 能 力 。 本 节 首 先 介绍 TensorBoard 可 视 化 高 维 数据 的 推荐 流程 和 方法 ,然后 介绍 使 用 TensorBoard 
可 视 化 MNIST 数据 集 的 最 佳 实践 。 


6.4.1 使 用 TensorBoard 可 视 化 高 维 数据 


TensorBoard 可 视 化 高 维 数据 的 模块 叫 作 衣 人 投影 仪 (embedding projector ), 打开 EMBEDDINGS 
面板 即 可 查看 。 读 人 投影 仪 是 将 高 维 数据 投影 到 低 维 空间 ( 如 二 维和 三 维 ) 中 的 可 视 化 模块 ， 它 
内 置 t-SNE (tDistributed Stochastic Neighbor Embedding ) 和 主 成 分 分 析 (Principal Component 
Analysis，PCA ) 这 两 种 降 维 算法 ， 也 支持 用 户 自 定义 降 维 算 法 。 因 为 谍 入 投影 仪 是 TensorBoard 
集成 的 第 三 方 组 件 , 所 以 它 与 原生 可 视 化 功能 的 使 用 方法 略 有 不 同 。 如 图 6-15 所 示 , TensorBoard 
可 视 化 高 维 数据 的 核心 在 于 3 类 对 象 及 其 对 应 的 3 种 文件 的 使 用 。3 类 对 象 分 别 是 能 入 变量 、 恋 
入 变量 元 数据 和 投影 配置 参数 。 保 存 它们 的 3 种 文件 分 别 是 checkpoint 文件 、 元 数据 文件 和 投影 
配置 文件 。 下 面 我 们 分 别 介绍 这 3 组 对 象 和 文件 的 使 用 方法 。 


嵌入 变量 2 人 checkpoint 文 件 | 
= 堵 EN i 人 
嵌入 变量 元 数据 | 瑟 全 | 。 元 数据 文件 “| 上 如 可 视 化 . ， 
写 入 
投影 配置 参数 上 一 全 」 投影 配置 文件 | 


图 6-15 使 用 TensorBoard 可 视 化 高 维 数据 的 典型 流程 
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口 能 入 变量 : 它 是 待 可 视 化 数据 的 载体 。TensorBoard 要 求 用 户 使 用 形 如 [ 谈 入 数据 总 数 ， 讽 
入 数据 维度 ] 的 二 阶 张 量 表示 想 要 可 视 化 的 高 维 数据 。 般 入 变量 本 身 也 是 一 种 变量 ， 因 此 
我 们 通常 将 其 命名 为 embedding_var， 并 将 其 写 人 checkpoint 文件 。 下 面 的 示例 代码 展 
示 了 如 何 创建 一 个 保存 10000 幅 MNIST 手写 体 数字 图 像 的 嵌入 变量 


# 创建 说 入 变量 ,保存 测试 集中 的 16668 张 手写 体 数 字 图 像 

embedding var = tf.Variable(tf.stack(mnist.test.images[:16666])， 
trainable=False, name="'embedding') 

# 创建 Saver 对 象 ， 并 保存 说 入 变量 

saver = tf.train.Saver() 

saver.save(sess, 0s.path.join(FLAGS.1log dir + '/model.ckpt')) 


口 圣 入 变量 元 数据 : 用 于 描述 舱 入 变量 中 每 个 元 素 的 数据 特征 集合 。 在 TensorBoard 中 展示 
投影 的 数据 点 时 ， 我们 可 以 为 其 添加 对 应 的 数据 特征 ， 以 便 更 清 晰 地 观察 数据 。 比 如 ， 
我 们 可 以 为 MNIST 图 像 的 艇 入 变量 添加 对 应 的 数字 标签 ， 或 者 为 词 向 量 的 舱 入 变量 添加 
对 应 的 出 现 频数 。TensorFlow 推荐 使 用 TSV 文件 格式 保存 上 谍 人 变量 元 数据 。 该 格式 类 似 
于 CSV 格式 ,第 一 行为 数据 头 ， 第 二 行 开 始 为 真正 的 数据 。 如 果 骨 入 变量 包含 多 个 不 同 
的 数据 特征 ， 那 么 特征 间 使 用 tab 分 隔 。 因 为 元 数据 在 训练 过 程 中 不 会 更 新 ， 所 以 将 其 
独立 保存 在 metadata.tsv 文件 中 有 利于 TensorBoard 快速 加 载 。 在 为 MNIST 数据 集 添 加 数 
字 标 签 的 例子 中 ， 因 为 只 有 标签 这 一 个 数据 特征 ， 所 以 可 以 省 略 数据 头 ， 直 接 将 数据 特 
征 写 入 元 数据 文件 。 下 面 给 出 MNIST 数据 集 的 元 数据 文件 示例 : 


7 
2 
1 


对 于 表示 图 像 的 般 入 变量 ，TensorBoard 还 支持 为 其 添加 对 应 的 图 像 文件 ， 以 供 页 面 呈 现 。 
TensorFlow 官方 提供 了 包含 MNIST 测试 集中 全 部 10000 张 手 写 体 数字 的 全 景 图 (https:/www. 
tensorflow.org/images/mnist_10k_sprite.png )。 在 计算 机 图 形 学 领域 ， 这 种 由 多 幅 子 图 集成 的 全 景 
图 也 称 为 sprite image。 只 要 保证 全 景 图 中 的 手写 体 数字 顺序 与 metadata.tsv 中 的 顺序 一 致 ， 
TensorBoard 便 能 够 正确 找到 数字 对 应 的 图 片 TensorBoard 切 分 全 景 图 的 默认 顺序 是 先 从 左 到 右 ， 
再 从 上 到 下 。 只 要 我 们 明确 设置 了 每 张 手写 体 图 像 的 尺寸 ，TensorBoard 便 可 以 从 全 景 图 中 按 序 
裁剪 出 每 一 幅 手写 体 图 像 ， 在 页 面 上 独立 泻 染 。 图 6-16 展示 了 这 张 全 景 图 的 开头 部 分 。 


7210414s70e901sS5937S476o54207 
COSHS92l944873979414YH92I9S5Y167AO 
3C11123523479390356593887712Y 
43124O23Y23002196 了 9SG179430Y4 人 
3s932ZQ5021017574719219429320 中 9 
3925&I31365772Q03auesfr43A2a03 
ChcCzr573se02402374375D846247 
\O730734485540821w8rdpDpod0406e19? 
634Hogg2a319359632C40326072131 
414d4e6eo929314 有 739878387121223738 
2025\93181091334csyY2cg727z54y15 
759q779e26z744535473ZzZ80)6e837 
61&8033723562/6061(13771708054OLg} 
441897U69939994R3137P83914PE7 
4672ZLOSSYAOI0244 芭 099946543193 


图 6-16 ”MNIST 数据 集中 的 部 分 


上 


写 体 数 字 的 图 像 
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口 投影 配置 参数 : 用 于 指定 TensorBoard 可 视 化 高 维 数据 时 所 使 用 的 舱 入 变量 及 其 元 数据 。 
投影 配置 参数 存储 在 以 Protocol Buffer 序 列 化 格式 保存 的 文本 文件 中 ， 这 些 配 置 主要 包括 
奶 入 变量 名 称 ( tensor_name ) 、 元 数据 文件 路 径 ( metadata_path ) 和 全 景 图 配置 ( sprite ) 
等 。 通 常 ， 我 们 将 投影 配置 文件 命名 为 projector_config.pbtxt。 下 面 我 们 仍然 以 可 视 化 
MNIST 数据 集 为 例 说 明 。 假 设 之 前 定义 的 般 入 变量 embedding_var 在 数据 流 图 中 的 名 称 
为 embedding:8， 元 数据 文件 路 径 为 /tmp/summary/embeddings/metadata.tsv，MNIST 测试 
集 的 全 景 图 文件 路 径 为 /mp/summary/images/mnist 10k _sprite.png， 有 是 每 一 幅 手 写 体 图 像 
的 常 和 宽 均 为 28 像素 ， 那么 投影 配置 文件 的 定义 如 下 所 示 : 


embeddings { 
tensor_name: “embedding:6"” 
metadata_path: "/tmp/summary/embeddings/metadata.tsv" 
sprite { 
image_path: "/tmp/summary/images/mnist_ 16k_sprite.png" 
single_image dim: 28 
single_image dim: 28 
} 
} 


总 结 TensorBoard 可 视 化 高 维 数据 的 流程 ， 我 们 认为 它 可 以 分 为 以 下 4 步 。 
(1) 创建 诅 入 变量 ， 并 保存 到 checkpoint 文件 。 

(2) 创建 诅 入 变量 元 数据 ， 并 保存 到 元 数据 文件 ( 通常 命名 为 metadata.tsv )。 
(3) 设置 投影 配置 参数 ,保存 到 投影 配置 文件 ( 通常 命名 为 projector_config.pbtxt )。 
(4) 运行 TensorBoard 程序 ， 加 载 上 面 生成 的 3 个 文件 ， 可 视 化 高 维 数据 的 投影 结果 。 


6.4.2 可视化 MNIST 数 据 集 的 最 佳 实践 


无 论 是 展示 图 像 识别 模型 的 训练 效果 ， 还 是 展示 高 维 数据 的 可 视 化 效果 ，MNIST 数据 集 一 
直 以 来 都 是 人 们 的 优先 选择 。 一 来 是 因为 手写 体 数字 识别 的 技术 已 经 非常 成 熟 , 基于 卷 积 神经 网 
络 模型 的 准确 率 可 以 达到 99% 以 上 ; 二 来 是 因为 从 0 到 9 这 10 个 数字 本 身 特 征明 显 ， 聚 类 后 的 
可 视 化 效果 比较 直观 。 下 面 的 代码 创建 并 保存 了 可 视 化 MNIST 数据 集 所 需 的 checkpoint 文件 、 
元 数据 文件 和 投影 配置 文件 : 


# 6.4 best practice.py 
# -*- coding:utf-8 -*- 
import argparse 

import sys 

import os 


import numpy as np 
import tensorflow as tf 


from tensorflow.contrib.tensorboard.plugins import projector 
from tensorflow.examples.tutorials.mnist import input_data 
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FLAGS = None 


def main(_): 

# 创建 日 志 目录 

if tf.gfile.Exists(FLAGS.1og_dir): 

tf.gfile.DeleteRecursively(FLAGS.1og_dir) 

tf.gfile.MakeDirs(FLAGS.1og dir) 

# 读 取 MNIST 数据 集 

mnist = input_data.read_data_sets(FLAGS .data_dir， 

one_hot=True， 
fake_data=FLAGS .fake_data) 

# 创建 说 入 变量 ,保存 测试 集中 的 16668 张 手写 体 数 字 图 像 

embedding var = tf.Variable(tf.stack(mnist.test.images[:16666])， 
trainable=False, name="'embedding') 
# 创建 交互 式 会 话 ， 并 初始 化 全 局 变量 
sess = tf.InteractiveSession() 
tf.global_variables_initializer().Pun() 
# 创建 Saver 对 象 ， 将 嵌入 变量 保存 到 checkpoint 文件 中 
saver = tf.train.Saver() 
saver.save(sess, os.path.join(FLAGS.1log dir + '/model.ckpt')) 
# 创建 元 数据 文件 ， 并 将 手写 体 数字 对 应 的 标签 写 入 元 数据 文件 
metadata_file = FLAGS.log dir + '/metadata.tsv' 
with open(metadata file, 'w') as ff: 

for i in range(FLAGS.max_nums): 

c = np.nonzero(mnist.test.1labels[::1])[1:][8][i] 
f.write('{}\n' .format(c)) 

# 创建 FileWriter， 并 保存 数据 流 图 
writer = tf.summary.FileWriter(FLAGS.1log_ dir, sess.graph) 
# 创建 投影 配置 参数 
config = projector.ProjectorConfig() 
embeddings= config.embeddings.add() 
embeddings.tensor_name = 'embedding:@" 
embeddings.metadata_path = os.path.join(FLAGS.1log dir + '/metadata.tsv') 
# 设置 全 景 图 文件 路 径 和 手写 体 数字 图 像 的 尺寸 
embeddings.sprite.image_path = os.path.join('/tmp/summary/images/mnist 16k_sprite.png') 
embeddings.sprite.single_image_dim.extend([28，28]) 
# 执行 visualize_embeddings 方法 ， 将 参数 配置 写 入 新 创建 的 投影 配置 文件 中 
# TensorBoard 启动 时 会 自动 加 载 该 文件 中 的 投影 参数 配置 
projector.visualize_embeddings(writer，config) 


if _ name _ == "main “ : 

parser = argparse.ArgumentParser() 

parser.add_argument('--fake_data' ，nargs='?'，Cconst=True，type=boo1， 
default=False, 
help='If true, uses fake data for unit testing.') 

parser.add argument('--max_nums', type=int, default=166860, 
help='Number of steps to run trainer.') 

parser.add argument('--data dir', type=str, 
default='/tmp/tensorflow/mnist/input_data', 
help='Directory for storing input data') 

parser.add argument('--log dir', type=str, 
default='/tmp/summary/embeddings', 
help='Summaries log directory') 
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FLAGS, unparsed = parser.parse_known_args() 
tf.app.run(main=main, argv=[sys.argv[8]] + unparsed) 


执行 上 面 的 代码 时 ， 读 者 应 根据 本 地 环境 设置 对 应 的 输入 参数 。 其 中 ，data_dir 参数 表示 
读 取 的 MNIST 数据 集 的 目录 ，1og_dir 表示 生成 日 志文 件 的 目录 。 程 序 执行 后 ， 生 成 的 文件 目 
录 结构 如 下 所 示 : 


/tmp/summary 
|-- embeddings 
|-- checkpoint 
|-- events.out.tfevents.1561427485.Django.1local 
|-- metadata.tsv 
|-- model.ckpt.data-66666-of-66661 
|-- model.ckpt.index 
|-- model.ckpt.meta 
~-- projector_config.pbtxt 
-- images 
~-- mnist_16k_sprite.png 


然后 ， 启 动 TensorBoard 程序 ， 并 设置 1ogdir 参数 为 /tmp/summary/embeddings， 相 关 命 
令 如 下 : 

$ tesorboard --logdir=/tmp/summary/embeddings 

最 后 ， 在 浏览 器 的 地 址 栏 中 输入 TensorBoard 的 URL， 并 进入 EMBEDDINGS 面板 。 
TensorBoard 默认 使 用 PCA 降 维 ,我 们 需要 手动 选择 t-SNE 降 维 方法 ( 方 框 1 ), 并 设置 使 用 不 同 
颜色 区 分 不 同 标签 ( 方 框 2 )。 经 过 多 轮 迭 代 后 ,我 们 最 终 得 到 了 如 图 6-17 所 示 的 分 类 效果 。 由 
于 我 们 设置 了 全 景 图 元 信息 ， 这 里 展示 的 每 张 手写 体 数字 都 是 从 全 景 图 中 提取 的 原始 图 像 。 
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6.5 小结 103 


6.5 小结 


TensorBoard 是 一 款 优秀 的 深度 学 习 可 视 化 工具 ， 它 能 够 通过 Web 界面 直观 地 展示 
TensorFlow 模型 开发 和 训练 过 程 中 诸多 类 型 的 抽象 数据 ,并 提供 一 定 的 动态 特征 和 交互 能 力 。 在 
TensorBoard 的 核心 功能 中 ， 可 视 化 数据 流 图 主要 用 于 调 测 模型 结构 ， 可 视 化 度量 指标 和 模型 参 
数 主要 用 于 评估 模型 学 习 效果 , 可 视 化 图 像 和 音频 数据 主要 用 于 观察 模型 输入 输出 ,可 视 化 高 维 
数据 主要 用 于 展示 高 维 艇 入 数据 的 分 布 情况 。 使 用 TensorBoard 时 ， 用 户 需 要 在 程序 中 引入 
tf.summary 模块 提供 的 工具 ， 输 出 必要 的 序列 化 数据 。 和 希望 读者 在 今后 的 模型 开发 和 使 用 中 ,能 
够 灵活 运用 TensorBoard 提供 的 可 视 化 能 力 ， 提 升 工作 效率 。 


模型 托管 工具 : 
TensorFlow Serving 


基于 TensorFlow 提供 的 基础 抽象 和 编程 框架 开发 算法 模型 仅仅 是 构建 实用 化 深度 学 习 系 统 
的 第 一 步 。 在 应 用 系统 中 ， 模 型 通常 会 以 推理 ( 预测 ) 态 的 形式 工作 ， 服 务 于 软件 的 整体 流程 。 
TensorFlow Serving 是 一 套 标准 化 的 模型 托管 工具 ， 它 能 够 打通 从 模型 训练 到 发 布 的 全 流程 ， 并 
以 较 低 的 管理 成 本 和 便捷 的 部 署 方式 为 用 户 提供 在 线 推理 服务 。 本 章 首 先 对 TensorFlow Serving 
进行 整体 性 说 明 , 给 出 其 工作 流水 线 。 继 而 阐述 它 的 系统 架构 和 核心 概念 ， 以 及 各 个 功能 模块 的 
组 织 结构 和 调用 关系 。 最 后 从 实践 人 手 ， 介 绍 TensorFlow Serving 运行 环境 的 搭建 和 模型 托管 的 
最 佳 实践 。 


7.1 概述 


对 于 传统 软件 ， 我 们 已 经 拥有 大 量 实现 持续 集成 和 迭代 发 布 的 DevOps 工具 。 然 而 ， 在 深度 
学 习 和 机 带 学 习 模 型 的 持续 集成 方面 ,业界 目前 还 处 于 起 步 阶 段 。 模 型 训练 同 软 件 开 发 相 比 , 具 
有 一 定 差异 性 。 软件 开发 需要 不 断 更 新 代码 , 然后 执行 单元 测试 和 集成 测试 , 进而 迭代 发 布 版 本 ; 
而 模型 训练 几乎 不 更 新 代码 , 仅 需 不 断 输 入 新 的 批 数据 ,从 而 不 断 训练 模型 并 更 新 模型 参数 即 可 。 
为 了 帮助 用 户 将 持续 迭代 训练 的 模型 快速 集成 到 线 上 系统 或 发 布 为 服务 ,Google 公司 研发 了 一 套 
兼 具 灵 活性 和 高 性 能 的 模型 托管 工具 一 一 TensorFlow Serving。 

TensorFlow Serving 支持 生产 级 的 服务 部 署 ， 允 许 用 户 快 速 搭建 从 模型 训练 到 服务 发 布 的 工 
作 流 水 线 。 它 支持 将 多 个 模型 组 合 为 一 个 完备 服务 进行 发 布 , 也 能 够 管理 一 个 模型 服务 的 多 个 版 
本 。TensorFlow Serving 可 以 在 保持 服务 架构 和 API 不 变 的 情况 下 ， 更 新 线 上 模型 和 运行 环境 ， 
使 得 模型 的 在 线 学 习 和 增 量 学 习 成 为 可 能 。TensorFlow Serving 不 但 能 够 实现 TensorFlow 模型 的 
开 箱 即 用 集成 ， 而 且 提 供 对 自 定义 模型 的 可 扩展 能 力 。 通 过 编写 简单 的 插件 ， 用 户 即 可 使 用 
TensorFlow Serving 托管 自 定 义 类 型 的 模型 。 


图 7-1 展示 了 TensorFlow Serving 的 工作 流水 线 ， 这 一 流水 线 主要 由 以 下 3 部 分 组 成 。 
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D 持续 训练 过 程 :基于 持续 输入 的 批 数据 ， 使 用 TensorFlow 不 断 训练 模型 ， 并 将 模型 定期 
保存 到 指定 目录 。 

口 模型 服务 : 发 布 训 练 好 的 模型 ， 对 外 提供 基于 gRPC 协 议 的 模型 服务 API， 同 时 支持 模型 
的 不 断 更 新 。 

口 客户 端 访问 : 使 用 基于 gRPC 协议 的 客户 端 程序 向 模型 服务 发 起 请 求 ， 并 等 待 服务 的 响 
应 结果 。 


持续 训练 流水 线 (CONTINUOUS TRAINING PIPELINE) ”模型 服务 (SERVING) 


a 与 
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Request 


本 
图 7-1 ”TensorFlow Serving 的 工作 流水 线 


7.2 系统 架构 


TensorFlow Serving 采用 经 典 的 客户 端 -服务 端 架 构 提 供 模 型 服务 。 服 务 端 主要 由 TensorFlow 
Serving 核心 类 和 接口 ， 以 及 模型 相关 的 插件 模块 组 成 。 客 户 端 是 指 用 户 面向 模型 推理 等 业务 需 
求 ， 设 计 实 现 的 TensorFlow Serving 服务 请 求 代 码 。 

7-2 展示 了 TensorFlow Serving 的 系统 架构 。 其 中 ，Loader 、Source 、Manager 和 Serva- 
bleHandle 是 基于 C++ 实现 的 核心 类 和 接口 。Servable 、SavedModel 和 VersionPolicy 是 模型 
相关 的 插件 模块 。Client 是 用 户 实现 的 gRPC 客户 端 , 用 于 向 Manager 加 载 模型 服务 发 起 请 求 。 下 
面 我 们 依次 介绍 图 中 的 各 个 概念 ， 帮 助 读 者 快速 理解 TensorFlow Serving 的 系统 架构 和 工作 原理 。 


服务 端 


ServableHandle 
Loader Manager <SavedModel> 


<SavedModel> 


证 ] TensorFlowServing 核 心 类 与 API 并! 插 拔 式 实现 模块 ”三 -客户 端 调用 代码 
图 7-2 TensorFlow Serving 系统 架构 
Servable 是 TensorFlow Serving 服务 端 提 供 计算 和 查询 等 服务 的 实例 ， 它 是 TensorFlow 


Serving 系统 中 最 核心 的 概念 。Servable 兼 具 通 用 性 和 灵活 性 的 特点 。 一 套 TensorFlow Serving 
系统 支持 同时 运行 多 个 服务 。 为 了 区 分 不 同 的 服务 , 我 们 需要 为 每 个 Servable 设置 不 同 的 名 称 。 
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服务 也 具有 版 本 的 概念 。 以 模型 服务 为 例 , 我 们 在 发 布 服务 后 通常 还 会 不 断 训练 和 保存 模型 ， 
此 总 是 存在 使 用 新 模型 替换 线 上 旧 模 型 的 情况 。 这 说 明 运 行 中 的 服务 在 不 同时 刻 加 载 的 可 能 是 同 
一 个 模型 的 不 同 版 本 。 为 了 便于 服务 管理 和 版 本 更 新 ，TensorFlow Serving 将 每 个 已 发 布 服务 的 
后 续 更 新 版 本 都 统一 保存 在 各 自 的 Servable Stream 队列 中 。 每 个 servable 都 拥有 一 个 唯一 的 
Servable Stream 队列 。 队 列 中 的 元 素 按照 版 本 号 大 小 升序 排列 ， 并 共享 同一 个 servable 名 称 。 


Loader 是 servable 的 加 载 器 抽象 , 它 提供 了 一 套 加 载 和 伸 载 Servable， 以 及 评估 系统 资 
源 是 否 足 够 加 载 Servable 的 标准 编程 接口 。Loader API 具 有 良好 的 通用 性 设计 ， 它 独立 于 特 
定 的 服务 、 算 法 、 数 据 和 产品 用 例 。 每 个 Loader 都 只 负责 一 个 对 应 Servable Stream 的 加 载 、 
钊 载 和 资源 评估 工作 。 同 一 时 刻 ， 每 个 Loader 只 能 加 载 对 应 Servable Stream 中 一 个 特定 版 本 
的 Servable。TensorFlow Serving 将 Servable Stream 中 这 些 等 待 被 加 载 的 Servable 集合 定义 为 
Aspired Versions。 


SavedModel 是 TensorFlow 模型 持久 化 存储 的 通用 序列 化 格式 ， 也 是 打通 从 模型 训练 到 服务 
发 布 流 程 的 关键 。 在 模型 训练 阶段 ， 我 们 有 可 能 会 使 用 输入 流水 线 和 超 参 数 优化 操作 ( 如 
Dropout )。 但 是 ， 当 我 们 准备 将 模型 保存 并 发 布 为 服务 时 , 往往 需要 部 分 删除 或 者 蔡 换 这 些 操作 ， 
否则 会 出 现 推理 ( 预测 ) 准确 率 较 低 ， 甚 至 输入 队列 阻塞 的 情况 。 为 了 尽 可 能 提升 服务 发 布 后 的 
准确 率 或 其 他 评价 指标 ， 我 们 需要 保存 多 份 不 同 的 数据 流 图 进行 测试 。savedModel 为 解决 这 个 
问题 提供 了 便利 : 它 支 持 使 用 同一 份 saved_model.pb 文件 来 保存 多 幅 不 同 的 数据 流 图 ，, 这 些 数据 
流 图 可 以 共享 模型 参数 和 资源 。 这 允许 我 们 测试 同一 模型 的 多 种 不 同 操 作 组 合 ,以 便 快速 确定 最 
优 的 数据 流 图 。 

Source 是 数据 处 理 器 抽象 , 它 负 责 监 控 和 处 理 servable 加 载 的 数据 ， 比 如 文件 系统 指定 路 
径 下 的 查找 表 ( lookup table ) 文件 或 模型 文件 。 当 Source 观察 到 指定 路 径 下 有 新 版 本 的 模型 文 
件 生 成 ， 或 轻 有 模型 文件 中 的 参数 更 新 时 ， 它 便 会 向 对 应 的 Servable Stream 中 添加 新 版 本 的 
Servable， 并 向 服务 管理 器 发 起 一 个 加 载 该 servable 的 请 求 。 一 个 source 可 以 同时 维护 多 个 
不 同 的 Servable Stream。 

Manager 是 服务 的 管理 器 抽象 。 它 根据 可 用 资源 和 版 本 更 新 策略 决定 是 否 允 许 Loader 加 载 
或 印 载 Servable Stream 中 的 Servable。Manager 提供 如 下 3 种 获取 指定 Servable 的 方法 : 

口 ServableStream 中 指定 版 本 的 Servable; 


口 ServableStream 中 最 新 版 本 的 Servable; 
口 指定 ServableId 的 Servable。 


VersionPolicy 是 Manager 中 的 服务 版 本 更 新 策略 ， 可 由 用 户 根据 服务 需求 自 定 义 。 不 同 
VersionPolicy 的 侧重 点 各 不 相同 ， 典 型 的 策略 有 以 下 两 种 。 
口 资源 节省 性 策略 。 该 策略 是 TensorFlow Serving 内 置 的 默认 策略 ， 它 要 求 Manager 先 印 载 
旧版 本 的 servable 再 加 载 新 版 本 的 Servable。 它 优先 减少 服务 的 资源 开销 ， 然 而 服务 
更 新 时 会 有 短暂 的 中 断 。 
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口 服务 稳定 性 策略 。 该 策略 要 求 Manager 先 加 载 新 版 本 的 Servable， 并 开始 响应 服务 ; 等 
竺 旧版 本 servable 之 前 接收 的 请 求 处 理 完 毕 后 ， 再 将 其 锚 载 。 它 优先 保证 服务 的 可 用 
性 ， 缺 点 是 资源 消耗 更 大 。 

ServableHandle 是 响应 gRPC 客户 端 访问 请 求 的 服务 句柄 。ServableHandle 与 已 加 载 的 
Servable 一 一 对 应 。 客 户 端 请 求 TensorFlow Serving 发 布 的 服务 时 ， 服 务 端的 ServableHandle 
会 调用 相应 servable 的 服务 接口 ， 并 将 其 响应 返回 给 客户 端 。 如 果 服 务 尚未 加 载 ， 则 癌 客 户 端 
返回 错误 信息 。 

以 上 介绍 了 TensorFlow Serving 服务 端的 逻辑 抽象 。 它 们 规范 了 TensorFlow 模型 保存 和 导出 
的 标准 格式 ， 定 义 了 加 载 和 缉 载 模型 服务 的 标准 接口 。 在 物理 实现 时 ，TensorFlow Serving 项 目 
编译 后 生成 的 可 执行 模块 是 ModelServer。ModelServer 是 TensorFlow Serving 系统 的 运行 时 主 
体 。 它 允许 用 户 加 载 文件 系统 指定 目录 下 的 模型 文件 或 查找 表 文 件 , 并 将 其 发 布 到 本 地 网 络 端口 
以 提供 模型 服务 或 其 他 通用 服务 。 用 户 可 以 通过 gRPC 协议 , 按照 指定 的 请 求 格式 调用 服务 。 为 
了 方便 部 署 ， 大 多 数 用 户 通常 选择 在 物理 服务 器 上 直接 使 用 Modelserver 托管 服务 。 不 过 ， 为 
了 提升 Modelserver 应 用 程序 本 身 的 可 移植 性 和 自 愈 性 ， 我 们 还 可 以 将 Modelserver 运行 在 


Docker 容器 或 者 Kubernetes 集群 中 。 


7-3 展示 了 TensorFlow Serving 的 运行 时 组 件 交 互 关 系 。 其 中 客户 端 发 送 的 输入 数据 和 
服务 端 返 回 的 输出 数据 均 由 Protocol Buffers 定义 ， 客 户 端 与 服务 端 通过 gRPC 协议 交互 。 客 户 
端 首先 将 输入 数据 序列 化 为 Protocol Buffers 数据 类 型 , 接着 调用 服务 端 提 供 的 gRPC 接口 发 起 服 
务 请 求 ; 服务 端 首先 将 接收 到 的 Protocol Buffers 数据 类 型 反 序 列 化 为 输入 数据 ， 接 着 调用 
ModelServer 加 载 的 对 应 服务 ， 并 得 到 服务 输出 的 结果 , 最 后 将 其 序列 化 为 Protocol Buffers 数 
据 类 型 并 返回 给 客户 端 。 


inputs = tensor_info x Nat 
i outputs = tensor_info DC Server 


method_name=... 


output data 


图 7-3 ”TensorFlow Serving 的 运行 时 组 件 交 互 关系 


7.3 安装 


TensorFlow Serving 的 安装 主要 是 指 其 服务 端 核心 组 件 一 一 ModelServer 的 安装 ， 同 时 也 涉及 
若干 外 部 依赖 项 和 周边 组 件 。ModelServer 支持 二 进 制 包 和 源 代码 编译 两 种 安装 方式 。 
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7.3.1 使 用 APT 安 装 ModelServer 


TensorFlow 官方 目前 支持 使 用 APT ( Advanced Packaging Tool， 高 级 包 管 理工 具 ) 在 Debian 
及 其 派生 的 Linux 发 行 版 (如 Ubuntu ) 上 安装 ModelServer 的 二 进 制 包 。ModelServer 二 进 制 包 
根据 编译 时 的 优化 选项 不 同 ， 分 为 以 下 两 种 。 


D tensorflow-model-server: 全 面 优化 的 ModelServer， 它 使 用 针对 特定 操作 系统 和 硬件 平 
台 优 化 的 编译 选项 ， 比 如 开启 了 SSE4 和 AVX 指令 集 支 持 。 因 此 ， 可 能 出 现 无 法 在 老 的 
操作 系统 和 硬件 平台 上 顺利 运行 的 情况 。 我 们 建议 用 户 优先 安装 和 测试 tensorflow- 
model-server。 

D tensorflow-model-server-universal: 更 通用 的 ModelServer， 没 有 使 用 针对 特定 操作 系统 
和 硬件 平台 的 编译 优化 选项 。 因 此 ， 它 可 以 在 绝 大 多 数 环境 中 顺利 运行 。 当 tensorflow- 
model-server 无 法 正常 使 用 时 ， 用 户 可 以 选择 它 作 为 替代 品 。 


我 们 推荐 用 户 按 照 以 下 步骤 安装 ModelServer 的 二 进 制 包 。 


首先 , 为 APT 添加 TensorFlow Serving 的 资源 下 载 路 径 。 然后 , 将 Google 发 布 的 TensorFlow 
Serving GPG 公 钥 添加 到 APT 的 密 钥 库 。 相 关 代 码 如 下 : 


$ echo "deb [arch=amd64] http://storage.googleapis.com/tensorflow-serving-apt stable 
tensorflow-model-server tensorflow-model-server-universal" | sudo tee 
/etc/apt/sources.1list.d/tensorflow-serving.1ist 

$ curl 
https://storage.googleapis.com/tensorflow-serving-apt/tensorflow-serving.release.pub.gpg | 
sudo apt-key add - 


接着 ， 更 新 APT 的 资源 列表 ， 并 安装 tensorflow-model-server: 


$ sudo apt-get update 

$ sudo aptget install tensorflow-model-server 

Preparing to unpack .../tensorflow-model-server 1.3.6 all.deb ... 
Unpacking tensorflow-model-server (1.3.0) ... 

Setting up tensorflow-model-server (1.3.6) ... 


安装 完成 后 ， 我 们 可 以 在 命令 行 界面 下 检查 是 否 能 够 调用 tensorflow_model_server 可 执 
行文 件 。 如 果 tensorflow_model_server 打印 出 如 下 所 示 的 ModelServer 使 用 方法 ， 那 么 说 明 
安装 成 功 : 

$ tensorflow model_ server 


usage: tensorflow model_server 
Flags: 


--port=8566 int32 port to listen on 
--enable_batching=false bool enable batching 


如 果 操 作 系 统 和 硬件 平台 不 支持 某 些 高 级 编译 选项 ,或 因为 其 他 原因 导致 tensorflow-model- 
server 不 能 正常 工作 ， 那 么 应 该 安装 更 通用 的 tensorflow-model-server-universal。 在 安装 通用 版 本 
之 前 ， 我 们 应 该 先 印 载 已 经 安装 的 优化 版 本 ， 以 避免 因 文件 冲突 而 产生 错误 。 
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7.3.2 ”使 用 源码 编译 安装 ModelServer 


如 果 用 户 使 用 macOS 或 Red Hat Enterprise Linux 等 不 依赖 于 APT 管理 软件 包 的 操作 系统 ， 
那么 就 需要 从 TensorFlow Serving 源码 编译 安装 ModelServer。 源 码 构 建 ModelServer 的 依赖 项 包 
括 Bazel 、gRPC 和 若干 系统 软件 包 。 下 面 我 们 介绍 使 用 TensorFlow Serving 源码 编译 安装 
ModelServer 的 推荐 步 又 。 


(1) 安装 Bazel 软件 构建 工具 ， 具 体 可 参考 2.1.6 节 。 
(2) 安装 gPRC 远程 过 程 调用 框架 的 Python 工具 包 : 
$ pip install grpcio 


(3) 安装 TensorFlow Serving 所 依赖 的 系统 软件 包 。 下 面 列 出 了 在 Ubuntu 14.04 系统 上 构建 
TensorFlow Serving 所 需 的 系统 软件 包 : 


build-essential 
curl 
libcurl3-dev 

git 
libfreetype6-dev 
libpng12-dev 
libzmq3-dev 
pkg-config 
python-dev 
python-numpy 
python-pip 
software-properties-common 
swig 

zip 

zliblg-dev 


其 他 操作 系统 对 应 的 软件 包 名 称 可 能 略 有 不 同 。 用 户 可 查阅 相关 软件 文档 , 安装 对 应 当前 系 
统 的 等 价 软 件 包 。 

(4)( 可 选 步骤 ) 安装 TensorFlow Serving Python API 软件 包 。 客 户 端 需要 调用 Protocol Buffers 
定义 的 TensorFlow ServingAPI。 当 使 用 Python 语言 开发 客户 端 时 ,如 果 用 户 不 想 通 过 .proto 文件 自 
行 构建 Python API， 则 可 以 直接 安装 预 编 译 好 的 tensorflow-serving-api 软件 包 : 

$ pip install tensorflow-serving-api 

(5) 完整 克隆 TensorFlow Serving 项 目 及 其 子 模块 的 代码 : 

$ git clone --recurse-submodules https://github.com/tensorflow/serving 

(6) 运行 configure 脚本 ， 配 置 TensorFlow 编译 选项 ， 具 体 可 参考 2.1.6 节 : 


$ cd serving/tensorflow 
$ ./configure 


(7) 编译 TensorFlow Serving 源码 。 编 译 完成 后 ， 可 以 在 tensorflow_serving/model_servers 目 
录 下 找到 ModelServer 的 可 执行 文件 一 一 tensorflow_model_server: 
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$ cd .. 

$ bazel build -c opt tensorflow_serving/... 

$ bazel-bin/tensorflow_ serving/model_servers/tensorflow model_server 
usage: tensorflow model_server 


(8) 测试 ModelServer 是 否 正 确 编译 。 我 们 可 以 使 用 bazel test 命令 运行 TensorFlow Serving 
提供 的 测试 用 例 。 下 面 的 命令 行 输出 显示 所 有 测试 用 例 通过 ， 说 明 源码 编译 的 ModelServer 工作 
正常 : 

$ bazel test -c opt tensorflow serving/... 

Executed 58 out of 58 tests: 58 tests pass. 

需要 说 明 的 是 ， 在 步骤 (7) 中， 我 们 没有 使 用 附加 的 编译 选项 ， 这 可 以 确保 软件 适用 于 绝 大 
多 数 运 行 环境 。 我 们 也 可 以 根据 软 硬 件 环 境 的 实际 情况 开启 下 列 编 译 优化 特性 , 它们 将 有 效 提升 
TensorFlow 和 ModelServer 的 计算 性 能 : 


bazel build -c opt --config=mkl] --copt=-msse4.1 --copt=-msse4.2 --copt=-mavx --copt=-mavx2 
--cCopt=-mfma --copt=-03 tensorflow_serving/... 


7.4 最 佳 实践 


TensorFlow Serving 的 托管 模型 流程 主要 包含 4 个 步骤 ,分别 是 训练 模型 、 导 出 模型 、 发 布 
模型 服务 和 更 新 线 上 模型 服务 。 其 中 ， 训 练 模型 的 方法 与 前 面 章 节 介 绍 的 原生 TensorFlow 模型 
训练 过 程 并 无 差异 。 为 了 使 读者 快速 上 手 ， 本 节 以 MNIST 模型 为 例 ， 基 于 TensorFlow Serving 
项 目 提供 的 客户 端 ， 完 整地 展示 使 用 TensorFlow Serving 托管 模型 的 全 流程 。 


7.4.1 导出 模型 


TensorFlow Serving 的 服务 端 组 件 只 负责 模型 服务 的 发 布 和 更 新 ,模型 的 导出 需要 由 TensorFlow 
原生 的 tensorflow.saved_model.builder.SavedModelBuilder 模块 实现 。 按 照 用 户 设置 的 模 
型 导出 目录 和 周期 , SavedModelBuilder 定期 向 文 件 系统 中 的 目标 路 径 导 出 模型 快照 。 模 型 快照 
的 格式 为 7.2 节 介 绍 的 SavedModel 序列 化 格式 ， 不 同时 刻 导出 的 模型 会 被 标记 为 不 同 的 版 本 。 
下 面 是 SavedModelBuilder 导出 的 模型 目录 的 典型 结构 示例 : 

上 1 
| saved_model.pb 
| — variables 


| | 一 variables.data-66666-of-66661 
| [一 variables.index 


目录 名 称 1 表示 该 目录 保存 的 模型 版 本 号 为 1。 在 该 目录 中 ,save_model.pb 文件 是 序列 化 后 
的 tensorflow: :SavedModel 对 象 , 它 包括 模型 对 应 的 一 幅 或 多 幅 数 据 流 图 ,以 及 模型 的 元 数据 。 
variables 子 目 录 下 的 variables.data-xxxxx-of-xxxxx 文件 是 序列 化 后 的 不 同 版 本 的 模型 参数 ; 
variables. index 文件 保存 着 模型 参数 名 称 和 图 中 节点 的 索引 ， 便 于 快速 恢复 模型 参数 。 
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我 们 在 第 4 章 中 介绍 过 使 用 saver 保存 模型 的 方法 , 也 在 上 一 章 介绍 了 使 用 Filewriter 保 
存 数据 流 图 和 汇总 数据 的 方法 。SavedModelBuilder 的 使 用 方法 与 前 两 者 略 有 不 同 。 由 于 
SavedModelBuilder 导出 的 模型 会 以 服务 的 形式 对 外 开放 ,我们 需要 在 导出 模型 时 明确 定义 请 求 
服务 的 接口 。TensorFlow Serving 推荐 使 用 SignatureDef Protocol Buffers 来 定义 接口 ， 接 口 定 义 具 
体 包 括 输入 参数 、 输 出 参数 和 服务 响应 方法 的 名 称 。SignatureDef 对 应 的 工具 类 提供 了 构建 
SignatureDef Protocol Buffers 的 方法 一 一 tf.saved_model.signature_def_utils.build_signa- 


ture_def。 
使 用 SavedModelBuilder 导出 模型 分 为 以 下 3 个 步骤 。 
(1) 构造 savedModelBuilder 实例 ， 并 设置 模型 的 导出 路 径 。 
(2) 定义 模型 服务 的 SignatureDef。 
(3) 使 用 SavedModelBuilder 实例 导出 模型 。 


为 了 方便 说 明 ,我 们 以 TensorFlow Serving 项 目的 示例 代码 tensorflow_serving/example/mnist_ 
saved_model.py 为 例 ， 介 绍 导出 模型 的 具体 实现 。 下 面 是 我 们 从 mnist_saved_model.py 文件 中 摘 
取 的 主要 代码 片段 : 


import tensorflow as tf 
# 训练 MNIST softmax 模型 
export_path_base = sys.argv[-1] 
export_path = os.path.join( 
compat.as_bytes(export_path_base), 
compat.as_bytes(str(FLAGS.model _ version))) 

# 第 (1) 步 : 构造 SavedModelBuilder 的 实例 builder， 并 设置 模型 导出 路 径 
print “Exporting trained model to', export_path 
builder = tf.saved model.builder.SavedModelBuilder(export_path) 
# 第 (2) 步 : 定义 模型 服务 的 SignatureDef 
prediction_signature=... 
classification signature=... 
# 第 (3) 步 : 使 用 builder 导出 模型 
builder.add meta_graph_and_variables( 

sess, [tf.saved model.tag_ constants.SERVING], 

signature_def_map={ 

"predict_images ' : 
prediction_signature, 
tf.saved_ model.signature_constants .DEFAULT_SERVING SIGNATURE_DEF_KEY: 
classification_signature, 


}, 
legacy_init op=legacy_init_op) 
builder.save() 


SavedModelBuilder 构造 方法 的 输入 参数 export_path 表示 模型 导出 的 目标 路 径 。 当 
SavedModelBuilder 的 实例 builder 构造 时 ， 其 构造 方法 内 部 会 创建 该 目录 。 如 果 目 录 已 经 存 
在 ， 那 么 程序 会 抛 出 异常 。 


创建 SavedModelBuilder 的 实例 后 ,我 们 还 需要 调用 它 的 add_meta_graph_and_variables 
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成 员 方 法 , 添加 期 望 导出 的 数据 流 图 和 模型 参数 。add_meta_graph_and_variables 方法 的 主要 

输入 参数 包括 sess、tags 和 signature_def_map。 

D sess 是 包含 待 导出 模型 的 TensorFlow 会 话 。 

D tags 是 数据 流 图 的 类 型 标签 ， 可 选 的 取 值 包 括 SERVING、TRAINING 和 GPU， 它 们 分 别 表 

示 该 数据 流 图 用 于 提供 服务 、 训 练 模 型 ， 以 及 使 用 GPU 设备 。 

D signature_def_map 以 键 值 对 形式 保存 SignatureDef 对 象 ， 用 于 记录 模型 服务 提供 的 
不 同 接口 签名 。 其 关键 字 允 许 用 户 自 定义 (如 predict_images )， 也 允许 使 用 tf.saved_ 
model.signature_constants 中 定义 的 常量 (如 DEFAULT_SERVING_SIGNATURE_DEF_ 
KEY ) 。signature_def_map 中 保存 的 SignatureDef 对 象 会 被 加 入 到 savedModel 中 。 

我 们 首先 关注 图 像 预测 服务 。 下 面 的 代码 展示 了 图 像 预 测 服务 的 接口 签名 一 一 prediction_ 


signature: 


tensor_info x = tf.saved model.utils.build tensor_info(x) 
tensor_info y = tf.saved model.utils.build tensor_info(y) 


prediction_ signature = ( 
tf.saved model.signature def utils.build signature_ def( 
inputs={ ' images': tensor_info x}, 
outputs={f ' scores ': tensor_info_y}， 
method_name=tf.saved_model.signature_constants.PREDICT_METHOD_NAME ) ) 


其 中 ,tf.saved_model.utils.build tensor_info 方法 提供 了 构建 TensorInfo Protocol Buffers 
的 方法 。 该 服务 的 输入 和 输出 均 为 TensorInfo 数据 类 型 。 方 法 名 称 使 用 tf.saved_model. 
signature_constants 中 定义 的 PREDICT_METHOD_NAME 常量 ， 表 示 预 测 服务 。 

接 下 来 ,我 们 关注 图 像 分 类 服务 。 下 面 的 代码 展示 了 图 像 分 类 服务 的 接口 签名 一 一 classi- 


fication signature: 


classification_ inputs = tf.saved model.utils.build tensor_info( 
serialized tf_ example) 

classification outputs_classes = tf.saved model.utils.build tensor_info( 
prediction_classes) 

classification outputs_scores = tf.saved model.utils.build tensor_info(values) 


classification signature = ( 
tf.saved model.signature def_utils.build signature_ def( 
inputs={ 
tf.saved model.signature_constants .CLASSIFY_INPUTS: 
classification _ inputs 


)， 
outputs={ 
tf.saved model.signature_constants .CLASSIFY_OUTPUT_CLASSES: 
classification outputs_classes, 
tf.saved model.signature_ constants .CLASSIFY_OUTPUT_SCORES: 
classification outputs_scores 
)， 


method_name=tf.saved_model.signature_constants.CLASSIFY_METHOD_NAME ) ) 
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其 中 服务 的 输入 为 序列 化 后 的 图 像样 例 ， 输 出 包括 两 项 一 一 classification_outputs_classes 
和 classification_outputs_scores, 它们 分 别 表示 计算 得 到 的 类 别 和 分 数 ( 置信 和 度 )。 方 法 名 
称 使 用 tf.saved_model.signature_constants 中 定义 的 CLASSIFY_METHOD_NAME 常量 ， 表 示 
分 类 服务 。 

最 后 ， 执 行程 序 并 导出 模型 。 在 运行 mnist_saved_model.py 脚本 时 ，builder 实例 默认 将 导 
出 模型 的 版 本 号 设置 为 1。 此 外 ，mnist_ saved_model.py 文件 也 定义 了 模型 版 本 号 参数 FLAGS .model_ 
version。 用 户 在 执行 该 脚本 时 ， 可 以 传人 model_version 参数 ， 显 式 指定 导出 模型 的 版 本 号 。 
为 了 方便 说 明 , 我 们 约定 将 模型 导出 到 /tmp/mnist 目录 下 。 下面 的 命令 用 于 导出 训练 1000 步 后 的 
MNIST softmax 模型 : 


$ python tensorflow serving/example/mnist_saved model.py --training_iteration=1666 
--model_version=1 /tmp/mnist 
Training model... 


training accuracy 6.9692 

Done training! 

Exporting trained model to /tmp/mnist/1 
Done exporting! 


7.4.2 发布 模 型 服务 


成 功 导出 模型 后 ， 我 们 就 可 以 使 用 ModelServer 发 布 模型 了 。 具 体 方 法 是 执行 tensorflow_ 
model_server 命令 ， 并 指定 模型 名 称 、 模 型 文件 路 径 和 服务 端口 号 等 参数 。 下 面 的 命令 演示 了 
如 何 发 布 MNIST softmax 模型 服务 ; 


$ tensorflow model_ server --port=9666 --model_name=mnist --model_ base_path=/tmp/mnist 

2617-68-26 22:15:52.623923: I tensorflow serving/model_servers/server_ core.cc:434] 
Adding/updating models. 

2617-68-26 22:15:52.623941: I tensorflow serving/model_servers/server_ core.cc:485] 
(Re-)adding model: mnist 

2617-68-26 22:15:52.729438: I tensorflow serving/core/basic manager.cc:705] Successfully 
reserved resources to load servable {name: mnist version: 1} 

2617-68-26 22:15:52.729485: I tensorflow_serving/core/loader harness.cc:66] Approving load 
for servable version {name: mnist version: 1} 

2617-68-26 22:15:52.729562: I tensorflow_serving/core/loader_harness.cc:74] Loading servable 
version {name: mnist version: 1} 


2617-68-26 22:15:52.757397: I external/org_tensorflow/tensorflow/cc/saved_ model/ 
loader.cc:284] Loading SavedModel: success. Took 27836 microseconds. 

2617-68-26 22:15:52.757596: I tensorflow_ serving/core/loader_harness.cc:86] 
Successfully loaded servable version {name: mnist version: 1} 

2617-68-26 22:15:52.796754: I tensorflow serving/model_servers/main.cc:288] 
Running ModelServer at 6.0.0.0:96686 ... 


从 日 志 结 果 来 看 ,ModelServer 已 将 MNIST softmax 模型 服务 成 功 地 发 布 在 本 地 的 9000 端口 。 
为 了 调用 该 服务 ， 我 们 需要 编写 符合 服务 接口 的 gRPC 客户 端 代 码 。 针 对 这 个 示例 性 的 MNIST 
模型 服务 , TensorFlow Serving 项 目 提 供 了 一 个 Python 客户 端 示例 , 即 tensorflow_serving/example/ 
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mnist_client.py。 下 面 的 命令 使 用 该 客户 端 调用 已 发 布 的 MNIST softmax 模型 服务 ， 请 求 识别 
MNIST 测试 数据 集中 前 1000 张 手写 体 数 字 图 像 : 


$ python tensorflow_ serving/example/mnist client.py --num_tests=1666 
--Server=localhost:9666 


Inference error rate: 10.4% 

因为 我 们 加 载 的 MNIST softmax 模型 在 验证 集 上 的 准确 率 为 90% 左右 ， 所 以 识别 结果 的 平 
均 错 误 率 应 该 在 10% 左右 。 从 命令 输出 的 结果 来 看 , MNIST softmax 模型 服务 正确 地 响应 了 我 们 
从 客户 端 发 起 的 请 求 。 

综 上 ， 我 们 成 功 导出 了 经 过 训练 的 MNIST softmax 模型 ， 并 将 其 发 布 到 了 本 地 的 9000 端口 
以 提供 模型 服务 。 我 们 可 以 使 用 多 种 语言 编写 的 gRPC 客户 端 访 问 该 服务 ， 以 便 对 目标 数据 执行 
推理 〈 预测 ) 操作 。 


7.4.3 ”更 新 线 上 模型 服务 


现在 我 们 已 经 学 会 了 如 何 发 布 特定 版 本 的 模型 服务 ,为 了 能 够 将 更 加 成 熟 和 精确 的 模型 以 迭 
代 发 布 方式 提供 给 用 户 ,我 们 有 必要 了 解 如 何 更 新 已 发 布 的 模型 服务 。 这 里 介绍 一 种 简单 的 方式 ， 
即 模型 服务 自动 更 新 方式 。 对 于 模型 多 次 训练 之 后 ， 新 旧版 本 的 文件 处 于 同一 目录 的 情况 ， 
ModelServer 默认 会 自动 加 载 新 版 本 的 模型 。 为 了 方便 说 明 ， 我们 沿用 上 一 节 的 例子 。 在 MNIST 
softmax 模型 的 版 本 1 已 经 上 线 的 前 提 下 , 我 们 将 模型 继续 训练 到 10000 步 后 导出 版 本 2。 训 练 和 
导出 新 版 模型 的 命令 及 其 输出 如 下 : 

python tensorflow_serving/example/mnist_saved model.py --training_iteration=16660 


--model_version=2 /tmp/mnist 
Training model... 


training accuracy 8.9265 

Done training! 

Exporting trained model to /tmp/mnist/2 
Done exporting! 


可 以 看 出 ， 版 本 2 的 准确 率 已 提升 到 92.05%。 


当 模 型 导出 完成 后 ，ModelServer 立即 感知 到 /tmp/mnist 目录 下 生成 了 新 版 本 的 MNIST 
softmax 模型 文件 。 此 时 ，ModelServer 会 抒 载 模型 的 版 本 1， 并 加 载 版 本 2。 下 面 是 ModelServer 
更 新 线 上 模型 服务 的 日 志 示 例 : 


2617-68-21 22:56:608.412844: I tensorflow serving/core/basic manager.cc:785] Successfully 
reserved resources to load servable {name: mnist version: 2} 

2617-68-21 22:56:08.412873: I tensorflow_serving/core/loader_ harness.cc:66] Approving load 
for servable version {name: mnist version: 2} 

2617-68-21 22:56:608.412886: I tensorflow_serving/core/loader_ harness.cc:74] Loading servable 
version {name: mnist version: 2} 

2617-68-21 22:56:68.412911: I external/org_ tensorflow/tensorflow/contrib/session_ bundle/ 
bundle_shim.cc:366] Attempting to load native SavedModelBundle in bundle-shim from: 
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/tmp/mnist/2 

2617-68-21 22:56:68.412932: I external/org_ tensorflow/tensorflow/cc/saved_ model/ 
loader.cc:236] Loading SavedModel from: /tmp/mnist/2 

2617-68-21 22:56:68.416698: I external/org_tensorflow/tensorflow/cc/saved_ model/ 
loader.cc:155] Restoring SavedModel bundle. 

2617-68-21 22:56:68.421436: I external/org_ tensorflow/tensorflow/cc/saved_ model/ 
loader.cc:196] Running LegacyInitop on SavedModel bundle. 

2617-68-21 22:56:68.424385: I external/org_ tensorflow/tensorflow/cc/saved_ model/ 
loader.cc:284] Loading SavedModel: success. Took 11454 microseconds. 

2617-68-21 22:56:68.424665: I tensorflow_ serving/core/loader harness.cc:86] 
Successfully loaded servable version {name: mnist version: 2} 

2617-68-21 22:56:608.517698: I tensorflow_serving/core/loader_harness.cc:137] 
Quiescing servable version {name: mnist version: 1} 

2617-68-21 22:56:68.517152: I tensorflow_ serving/core/loader_ harness.cc:144] 
Done quiescing servable version {name: mnist version: 1} 

2617-68-21 22:56:68.517172: I tensorflow_serving/core/loader harness.cc:119] 
Unloading servable version {name: mnist version: 1} 

2617-68-21 22:56:68.518784: I ./tensorflow_ serving/core/simple_loader.h:294] 
Calling MallocExtension ReleaseToSystem() after servable unload with 66651 

2617-68-21 22:56:68.518869: I tensorflow_serving/core/loader_harness.cc:127] 
Done unloading servable version {name: mnist version: 1} 


es 但 其 灵活 性 较 差 。 程序 一 旦 导出 模型 , ModelServer 
便 会 立刻 更 新 服务 ,这 完全 符合 实际 使 用 场景 。 在 模型 训练 过 程 中 , 我们 可 能 希望 不 断 地 
尝试 不 同 的 训练 参数 ， a J 之 后 才 将 其 发 布 。 这 种 做 法 不 但 能 够 保证 模型 
本 身 的 质量 与 精度 ,同时 也 有 助 于 确保 模型 服务 的 稳定 性 与 可 靠 性 。 针 对 这 种 场景 , 我 们 需要 修 
改 服务 的 版 本 更 新 策略 ， 显 式 控制 ModelServer 上 的 服务 更 新 。 具 体 方法 请 读者 参考 TensorFlow 
Serving API 文档 。 


7.5 小结 


TensorFlow Serving 作为 一 套 模型 托管 工具 ， 打 通 了 从 模型 训练 到 服务 发 布 的 工作 流水 线 ， 
补 全 了 在 生产 环境 中 部 署 深度 学 习 和 机 器 学 习 模 型 的 后 期 环节 。 针 对 推理 ( 预测 ) 态 服务 的 特点 ， 
TensorFlow Serving 提出 了 一 套 持 续 训 练 、 持 续集 成 和 持续 发 布 的 标准 化 流程 ， 并 提供 了 相应 的 
插件 和 工具 。 借 助 gRPC 和 Protocol Buffers 的 能 力 ，TensorFlow Serving 发 布 的 服务 天 然 具 有 跨 
平台 、 支 持 多 语言 客户 端的 特点 。 同 时 ，TensorFlow Serving 还 兼 具 易 用 性 、 高 效 性 和 灵活 性 优 
势 。 部 练 掌握 并 灵活 应 用 TensorFlow Serving， 是 将 算法 模型 推 向 实用 系统 的 一 条 便捷 之 路 。 
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深 度 学 习 概述 


学 会 了 TensorFlow 的 基本 原理 和 使 用 方法 之 后 ， 我 们 即将 进入 实战 环节 。TensorFlow 的 主 
要 应 用 场景 是 训练 和 部 署 深度 学 习 模 型 ， 从 而 解决 感知 、 推 理 、 决 策 等 人 工 智 能 及 相关 领域 的 具 
体 问题 。 了 解 深 度 学 习 的 历史 与 现状 、 认 识 一 些 经 典 的 神经 网 络 模型 ， 是 独立 开发 应 用 专属 模型 
的 前 提 。 本 章 对 深度 学 习 技术 的 来 龙 去 脉 进 行 介绍 ， 然 后 展示 一 组 典型 的 应 用 场景 ， 借 此 背景 
识 , 将 读者 带 入 人 工 智能 算法 开发 的 广阔 天 地 ，5 引 导读 者 充分 施展 TensorFlow 作为 工具 的 潜能 。 


8.1 深度 学 习 的 历史 


大 多 数 数据 科学 家 和 算法 工程 师 对 神经 网 络 并 不 陌生 。 深 度 学 习 是 神经 网 络 的 进一步 延伸 。 
通过 加 深 模型 深度 ， 深 度 学 习 可 以 从 数据 中 学 习 到 不 同 程度 的 抽象 特征 。 在 深度 学 习 出 现 之 前 ， 
当 人 们 要 处 理 和 分 析 非 结构 化 数据 ( 如 语音 、 文 本 和 图 像 等 ) 的 时 候 , 需要 先 利 用 人 工 设计 的 特 
征 提取 模块 从 原始 数据 中 抽取 特征 ， 然 后 再 将 特征 输入 到 分 类 器 或 者 回归 器 〈 如 SVM 等 ) 以 得 
到 最 终 的 结果 。 这样 做 的 整 端 在 于 人 工 设计 的 特征 很 难 应 对 各 式 各 样 的 输入 数据 和 应 用 场景 。 深 
度 学 习 可 以 自动 地 从 原始 数据 中 学 习 特 征 , 避免 了 人 工 特征 抽取 。 现 在 深度 学 习 已 经 在 图 像 识别 、 
语音 识别 、 机 器 翻译 等 任务 中 已 经 取得 了 一 系列 突破 。 本 节 主 要 从 最 早 的 感知 机 模型 与 神经 网 络 
开始 ， 介 绍 座 度 学 习 的 发 展 历史 。 


8.1.1 感知 机 模型 与 神经 网 络 


受 Warren McCulloch 和 Walter Pitts 在 神经 元 建 模 方面 工作 的 启发 ,心理 学 家 Frank Rosenblatt 
于 1957 年 发 明了 神经 感知 机 模型 Perceptron， 然 后 将 其 用 于 解决 分 类 问题 。 如 图 8-1 所 示 ， 该 模 
型 的 设计 参考 了 大 脑 中 神经 元 传递 信号 的 工作 机 制 。 在 这 个 模型 中 ,输入 神经 元 的 信号 由 向 量 x 
表示 ( 向 量 中 每 个 值 为 0 或 1 ), 模型 参数 ( 也 称 突 触 强度 ) 由 向 量 w' 表示 。 向 量 x 和 w 做 线性 
乘积 后 ， 再 经 过 一 个 非 线 性 激活 函数 ， 就 得 到 了 输出 神经 元 的 信号 值 >。 其 中 ， 非 线性 激活 函数 
采用 的 是 简单 的 阔 值 本 数 。 在 这 种 阔 值 机 数 中 ， 当 输入 大 于 阔 值 了 时 ， 输 出 为 1， 否 则 为 0。 


此 ， 这 是 一 个 二 分 类 模型 。 


输入 神经 元 ”权重 


Pa 


ee pe ot 


图 8-1 神经 感知 机 模型 的 示意 图 
如 何 训 练 模型 参数 是 一 个 重要 问题 ， 最 原始 的 训练 方法 如 下 所 示 。 
(1) 随机 初始 化 模型 参数 w!。 


(2) 计算 当前 训练 样本 所 对 应 的 输出 神经 元 的 信号 值 7。 将 输入 向 量 x 乘 以 了 -JI)7 作为 mw 的 
更 新 量 ， 其 中 了 为 训练 样本 对 应 的 真实 标签 值 ，7 为 一 个 大 于 0 的 学 习 速 率 。 


(3) 重新 训练 下 一 个 样本 ， 并 根据 步骤 (2) 来 更 新 模型 ， 直 至 模型 收敛 。 


这 个 训练 方法 本 质 上 就 是 监督 学 习 中 常用 的 梯度 下 降 法 。 Frank Rosenblatt 将 这 个 神经 感知 机 模 
型 在 康 奈 尔 航空 实验 室 的 IBM 704 计算 机 上 实现 了 。 但 这 个 感知 机 模型 只 可 以 解决 二 分 类 问题 。 如 
果 要 解决 多 分 类 问题 , 需要 多 个 输出 神经 元 组 成 输出 层 进 行 分 类 。 这 种 形式 的 模型 就 是 最 简单 的 神 
经 网 络 模型 。 通 过 堆 受 更 多 层 的 神经 元 , 并 将 相 邻 层 的 神经 元 相互 连接 ,可 以 得 到 更 复杂 的 神经 网 
络 。Frank Rosenblatt、Warren McCulloch 和 Walter Pitts 等 人 都 是 这 种 连接 主义 的 支持 者 ， 他 们 坚信 
这 种 基于 感知 机 的 模型 可 以 解决 人 工 智 能 所 面临 的 复杂 问题 ， 比 如 语音 识别 、 图 像 识 别 等 。 


8.1.2 ”神经 网 络 的 寒冬 与 复苏 


1956 年 ,在 MIT 教授 Marvin Minsky 等 人 发 起 的 达 特 茅 斯 会 议 上 ， 人 工 智能 这 个 概念 被 首 
次 提出 。 当 时 人 工 智能 的 研究 者 倾向 于 用 严格 的 数学 逻辑 推理 生成 规则 ， 并 基于 这 些 规则 操作 数 
学 符号 生成 人 工 智能 算法 。Marvin Minsky 比较 怀疑 感知 机 模型 能 否 实现 真正 意义 上 的 人 工 智能 。 
他 证 明了 感知 机 只 可 以 实现 “与 ”“ 或 ”的 逻辑 操作 ， 而 实现 不 了 “ 异 或 ”操作 ， 也 就 是 说 感知 机 
模型 难以 解决 非 线性 可 分 问题 ， 并 且 当 时 业界 几乎 没有 训练 多 层 感 知 机 和 神经 网 络 的 可 行 方法 。 
正 是 由 于 以 Marvin Minsky 为 代表 的 很 多 人 工 智能 界 学 者 的 强力 反对 ， 感 知 机 和 神经 网 络 的 研究 
在 开始 不 久 后 受挫 , 当时 的 研究 机 构 很 难 申 请 到 相关 的 项 目 经 费 。 神 经 网 络 的 发 展开 始 进入 寒冬 。 

尽管 如 此 , 还 是 有 一 些 学 者 在 感知 机 的 基础 上 , 继续 坚持 研究 多 层 神经 网 络 模型 及 其 训练 算 
法 。 现在, 大 多 数 算法 开发 者 都 已 经 知道 多 层 神 经 网 络 可 以 用 BP ( Back Propagation， 后 向 传播 ) 
算法 来 训练 模型 参数 。 该 算法 的 基本 思想 是 通过 损失 函数 对 模型 参数 求 导 , 并 根据 复合 函数 求 导 
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常用 的 “ 链 式 法 则 ”将 不 同 层 的 模型 参数 的 梯度 联系 起 来 , 使 得 计算 所 有 模型 参数 的 梯度 更 简单 。 
BP 算法 的 思想 早 在 20 世纪 六 七 十 年 代 就 被 提出 来 了 。David Parker、Yann LeCun 等 深度 学 习 研 
究 者 都 相继 提出 利用 BP 算法 来 训练 多 层 神 经 网 络 , 然 而 当时 并 没有 引起 整个 学 术 界 足够 的 重视 。 


地 描述 了 BP 算法 的 


直到 1986 年 , David Rumelhart 和 Geoffrey Hinton 等 人 发 表 了 一 篇 后 来 成 为 经 典 的 论文 ”, 它 清晰 


EE 架 , 这 才 使 得 BP 算法 真正 流行 起 来 , 并 带 来 了 神经 网 络 在 80 年 代 的 辉煌 。 
多 层 神经 网 络 被 证 明 可 以 模拟 任意 的 非 线 性 函数 。 人 们 可 以 通过 BP 算法 训练 多 层 神 经 网 络 模 型 
以 实现 特征 的 自动 抽取 。 


中 的 所 有 未 知 参 数 ， 


-3 


中 经 网 络 最 开始 的 应 用 是 识别 手写 数字 。 日 本 东京 大 学 教授 福 岛 邦 计 (Kunihiko Fukushima ) 


发 明了 多 层 神经 网 络 Neocognitron 用 于 手写 数字 和 字母 识别 ”。 受 Neocognitron 的 启发 ， 当 时 还 


道 的 输入 和 输出 而 言 


权重 可 以 被 所 有 的 输出 神经 元 共享 。 
0123456789 数字 类 别 


RN 


是 贝尔 实验 室 研 究 员 的 Yann LeCun 儿 


， 每 层 的 输出 神 


人 发 明了 多 层 CNN ( Convolutional Neural Network， 卷 积 
神经 网 络 ) 模型 ， 该 网 络 的 基本 结构 如 图 8-2 所 示 。 在 网 络 最 初 的 几 层 ( 即 卷 积 层 ) 中 ， 就 单 通 
经 元 只 与 输入 神经 元 的 部 分 相连 接 , 并 且 这 些 连接 所 对 应 的 


图 8-2 


16 像素 x 16 像素 的 灰 度 图 像 


于 手写 数字 识别 的 CNN 示意 图 


CNN 模型 常用 于 图 像 等 数据 的 特征 自动 提取 。 图 像 中 很 多 初级 特征 都 满足 局 域 性 和 位 置 无 


关 性 ， 这 给 CNN 的 设计 带 来 了 灵感 。 


局 域 性 是 指 图 像 中 某 个 区 域 的 特征 只 与 以 该 区 域 为 中 心 的 


OQ D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning representations by back-propagating errors. Nature, 1986, 323: 


533-536 


© K.Fukushima. Neocognitron: A hierarchical neural network capable of visual pattern recognition. Neural Networks, 1988, 


1(2): 119-130 
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局 部 范围 内 的 像素 值 有 关 , 这 使 得 两 层 神经 元 之 间 的 稠密 连接 可 以 变 为 局 域 稠密 连接 ( 从 全 局 的 
角度 看 ， 稠 密 连 接 变 为 了 稀 玻 连接 )。 位 置 无 关 性 是 指 输出 神经 元 提取 的 特征 对 于 像素 位 置 是 无 
关 的 。 比 如 ,假设 某 一 层 的 卷 积 计算 是 用 来 提取 图 像 中 边缘 信息 的 ,那么 提取 边缘 的 操作 ( 由 连 
接 的 权重 定义 ) 应 该 是 在 所 有 像素 位 置 共享 的 一 个 操作 。 因 此 ， 卷 积 带 来 的 好 处 是 前 后 两 层 神经 
元 之 间 的 连接 数 大 大 减少 了 ， 而 且 模 型 参数 可 以 共享 。 这 不 仅 使 得 模型 训练 成 为 可 能 ， 而 且 能 
防止 过 拟 合 。 

20 世纪 90 年 代 期 间 ，Yann LeCun 等 人 基于 CNN 实现 了 手写 数字 识别 系统 ， 应 用 于 美国 部 
分 银行 支票 上 数字 的 识别 ， 实 现 了 商用 化 。BP 算法 使 得 多 层 神经 网 络 训 练 变 得 简单 ， 也 促使 了 
手写 数字 识别 等 系统 的 商业 成 功 。 至 此 ， 神 经 网 络 的 发 展 经 历 了 第 一 次 寒冬 和 复苏 。 


8.1.3 ”神经 网 络 的 发 展 与 第 二 次 寒冬 


BP 算法 是 训练 大 多 数 神经 网 络 的 通用 算法 。 除 了 CNN,， 很 多 其 他 形式 的 神经 网 络 模型 也 可 
以 被 很 好 地 训练 出 来 ， 其 中 具有 代表 性 的 就 是 自 编码 器 。 自 编码 器 属于 无 监督 学 习 中 的 一 种 ,可 
以 训练 无 标注 的 数据 。 

如 图 8-3 所 示 ， 自 编码 需 的 基本 思想 是 用 隐藏 层 中 少量 的 神经 元 来 表示 输入 数据 ， 以 学 习 到 
更 加 抽象 的 特征 。 为 了 以 无 监督 的 方式 训练 编码 器 ,我 们 需要 再 增加 一 个 解码 器 ,实现 隐藏 层 到 
输出 层 (输出 层 与 输入 层 的 维度 相同 ) 的 映射 ， 并 将 输入 层 和 输出 层 之 间 的 误差 作为 损失 函数 进 
行 网 络 训练 。 


() (CD)(C) CD)CD) CC ) 输出 神经 元 


图 8-3 用 于 特征 学 习 和 压缩 的 自 编码 器 模型 示意 图 


1985 年 , Geoffery Hinton 等 人 提出 了 玻 尔 效 曼 机 及 其 训练 算法 。 不 同 于 之 前 的 神经 网 络 模型 ， 
玻 尔 兹 曼 机 是 一 种 基于 能 量 函 数 的 模型 , 源 自 统计 物理 学 。 它 以 最 小 化 能 量 函 数 为 目标 , 模型 参 
数 的 学 习 过 程 带 有 一 定 的 概率 性 。 如 图 8-4 所 示 ， 相 比 传统 的 单 层 或 多 层 神 经 网 络 ， 玻 尔 兹 曼 机 
没有 明显 的 分 层 , 其 模型 内 部 的 神经 元 是 彼此 互相 连接 的 。 玻 尔 效 曼 机 也 可 以 被 认为 是 一 种 图 模 
型 ， 其 中 每 一 个 神经 元 的 输出 〈 取 0 或 者 取 1 的 概率 值 ) 都 取决 于 和 它 相 连 的 神经 元 的 激活 值 及 
其 相应 的 权重 。 玻 尔 兹 曼 机 中 所 有 神经 元 的 输出 的 概率 值 形成 了 一 个 概率 分 布 。 


在 玻 尔 兹 曼 机 中 ,任何 神经 元 都 可 以 作为 可 见 神经 元 ( visible neuron ) 或 者 隐藏 神经 元 (hidden 
neuron )。 在 可 见 神经 元 和 隐藏 神 经 元 中 ， 任 意 一 方 的 值 确定 后 ， 对 方 的 概率 分 布 即 可 被 计算 出 
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来 。 因 此 , 玻 尔 效 曼 机 不 仅 可 以 用 来 生成 隐藏 层 的 概率 分 布 ， 还 可 以 用 来 生成 输入 数据 ( 由 可 见 
神经 元 表示 ) 的 概率 分 布 。 这 意味 着 玻 尔 效 曼 机 既 可 以 是 判别 模型 ， 也 可 以 是 生成 模型 。 针 对 玻 
尔 效 曼 机 不 容易 训练 的 问题 ，Geoffery Hinton 等 人 对 其 进行 了 简化 ， 提 出 了 RBM ( Restricted 
Boltzman Machine， 受 限 玻 尔 效 曼 机 )。 在 RBM 中 ， 隐 藏 层 的 神经 元 之 间 没 有 相互 连接 ， 输 入 神 
经 元 之 间 也 没有 相互 连接 ， 只 有 隐藏 层 和 输入 层 的 神经 元 之 间 存 在 连接 。 多 层 RBM 或 多 层 自 编 
码 器 可 以 堆 芭 并 形成 DBN ( Deep Belief Network， 深 度 信念 网 络 )。 除 了 以 玻 尔 兹 曼 机 为 代表 的 
随机 神经 网 络 之 外 ， 大 多 数 神经 网 络 模 型 仍 采 用 类 似 于 BP 的 算法 做 训练 。 例 如 ， 在 CNN 用 于 
图 像 识别 的 同时 ,人 们 也 在 积极 探索 用 于 语音 识别 的 神经 网 络 模 型 。 语音 数据 与 图 像 数 据 主要 的 
不 同 点 在 于 它 具 有 时 间 序 列 特性 。RNN ( Recurrent Neural Network， 循 环 神经 网 络 ) 是 一 种 以 时 
间 序 列 数据 ( 比如 由 10 个 单词 组 成 的 一 个 句子 ) 为 输入 的 模型 ， 其 典型 结构 如 图 8-5 所 示 。 


图 8-4 ” 玻 尔 兹 曼 机 示意 图 (v 表示 可 见 神经 元 ,表示 隐藏 神经 元 ) 
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在 RNN 模型 中 ， 隐 藏 层 神经 元 状态 不 仅 可 以 输入 到 下 一 层 ， 而 且 可 以 输入 到 下 一 时 刻 的 隐 
藏 层 。 不 同 于 CNN 模型 ，RNN 模型 需要 采用 BPTT ( Back Propagation Through Time， 随 时 间 反 
向 传播 ) 算法 来 训练 ， 其 参数 梯度 在 深度 方向 和 时 序 方向 上 同时 被 传播 。 后 来 ， 针 对 RNN 难以 
学 习 到 输入 数据 中 长 时 间 依赖 关系 的 问题 ，Jiirgen Schmidhuber 等 人 发 明了 LSTM ( Long-Short 
Time Memory， 长 短期 记忆 ) 模型 。LSTM 模型 的 整体 架构 类 似 于 RNN 模型 。 它 引入 “细胞 状 
态 ”( 也 称 “ 记 忆 状 态 ”) 来 表示 时 序 上 的 中 间 信 息 流 ， 并 通过 设计 4 个 “ 门 ”( 每 个 “ 门 ” 可 以 
看 作 某 种 矩阵 运算 ) 来 控制 细胞 状态 的 值 。 细 胞 状态 有 助 于 改善 RNN 模型 常 遇 到 的 长 时 间 依 赖 
问题 。 


随 着 模型 种 类 的 丰富 多 样 化 ,神经 网 络 所 覆盖 的 应 用 场景 也 越 来 越 多 。 然 而 ， 如 果 我 们 把 模 
型 变 得 稍微 复杂 一 些 ， 即 使 有 BP 或 BPTT 算 法 ， 也 很 难 训练 出 一 组 最 优 的 模型 参数 。 梯 度 弥散 
(或 梯度 消失 ) 是 BP 或 BPTT 算 法 用 于 复杂 模型 时 常见 的 问题 。 梯 度 在 BP 或 BPTT 传播 过 程 中 
需要 不 断 地 乘 以 每 层 的 权重 系数 和 激活 函数 的 导数 等 。 当 梯度 所 乘 项 小 于 1 时 , 梯度 会 越 变 越 小 ， 
出 现 梯度 弥散 问题 。 对 于 CNN 模型 ， 当 深度 增加 时 ， 训 练 难度 会 增加 ; 对 于 RNN 模型 ， 当 输入 
时 间 序 列 的 长 度 或 模型 深度 增加 后 ， 训 练 难度 也 会 增加 。 因 此 在 20 世纪 90 年 代 中 期 ， 人 们 发 现 
没有 好 的 算法 能 够 保证 训练 出 一 个 好 的 深度 模型 。 此 外 ， 当 时 的 数据 量 并 不 丰富 , 并且 计算 机 的 
计算 能 力 较 弱 , 难以 支撑 具有 一 定 复杂 度 的 模型 的 训练 , 这 使 得 很 多 复杂 的 神经 网 络 模 型 都 难以 
被 真正 应 用 起 来 。 而 与 此 同时 ，SVM ( Support Vector Machine， 支 持 向 量 机 ) 的 兴起 吸引 了 大 家 
的 注意 力 。 故 而 到 20 世纪 90 年 代 中 后 期 ， 神 经 网 络 模型 再 度 走 向 寒冬 ， 以 SVM 为 代表 的 机 器 
学 习 方 法 由 于 其 实用 性 高 而 成 为 当时 流行 的 方法 。 


8.1.4 深度 学 习 时 代 的 到 来 


从 20 世纪 90 年 代 开 始 到 2000 年 初 的 这 段 时 间 ， 坚 持 研 究 神经 网 络 的 学 者 非常 少 。 当 时 美 
国政 府 或 企业 已 经 很 少 会 拿 出 经 费 支 持 神经 网 络 的 研究 , 甚至 主流 的 学 术 刊物 都 不 太 愿意 接受 神 
经 网 络 相 关 的 论文 。 能 够 坚持 下 来 的 只 有 Geoffrey Hinton 、Yann LeCun 、Yoshua Bengio 等 少数 
学 者 。 垃 和 运 的 是 ， 以 CIFAR ( Canadian Institute for Advanced Research ) 为 代表 的 研究 机 构 支 持 研 
究 者 做 一 些 长 远 的 基础 研究 ， 其 中 就 包括 了 神经 网 络 的 研究 。2006 年 ，Geoffrey Hinton 等 人 发 明 
了 一 种 深度 网 络 训练 方法 。 这 种 方法 首先 采用 无 监督 学 习 对 每 层 参 数 做 初始 化 , 再 用 监督 学 习 做 
参数 训练 。 这 实质 上 是 一 种 半 监 督学 习 方 法 。Geoffrey Hinton 等 人 将 这 种 逐 层 训练 的 方法 用 于 图 
像 识别 ， 取 得 了 很 好 的 效果 。 同 时 ， 他 们 也 意识 到 用 多 个 GPU 设备 训练 深度 模型 可 以 提升 训练 
速度 。 当 时 工业 界 的 一 些 巨头 公司 (如 Microsoft 、Google 等 ) 已 经 意识 到 深度 学 习 模 型 在 语音 
识别 、 图 像 识别 场景 中 有 巨大 的 潜力 ， 故 而 纷纷 开始 重点 研究 深度 学 习 模 型 。 

2011 年 ， 斯 坦 福 大 学 的 副教授 吴 恩 达 ( Andrew Ng ) 找到 了 Google 公司 的 Je 人 ff Dean 等 人 ， 
他 们 共同 讨论 了 如 何 利 用 Google 庞大 的 计算 资源 来 快速 训练 深度 神经 网 络 ， 然 后 发 起 了 Google 
Brain 项 目 。 他 们 当时 搭建 了 一 个 分 布 式 的 异步 深度 神经 网 络 模型 训练 平台 一 一 DistBelief， 其 中 
采用 了 16000 多 个 CPU 训练 一 个 具有 10 亿 参 数量 的 深度 神经 网 络 。 这 个 神经 网 络 模型 通过 对 大 
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量 YouTube 视频 数据 的 学 习 ， 最 终 能 够 自动 地 识别 视频 中 的 猫 。 

2012 年 ，Geoffrey Hinton 和 他 的 两 个 学 生 在 机 器 学 习 与 人 工 智能 领域 的 顶级 会 议 NIPS 
( Neural Information Processing Systems ) 上 发 表 了 震惊 计算 机 视觉 和 人 工 智能 学 界 的 AlexNet 模 
型 ， 从 此 正式 拉 开 了 深度 学 习 时 代 的 序幕 。AlexNet 模型 主要 由 5 个 卷 积 层 、3 个 全 连接 层 和 其 
他 一 些 层 组 成 。 在 开源 的 图 像 数据 集 ImageNet 上 ，AlexNet 模型 以 84.7% 的 Top-5 精度 获得 图 像 
分 类 竞赛 冠军 ， 领 先 第 二 名 约 10 个 百分点 。 这 在 会 议 上 引起 了 不 小 的 缀 动 ， 也 标志 着 深度 学 习 
在 图 像 分 类 方面 实现 了 里 程 碑 式 的 跨越 。 事实 上 ， 在 AlexNet 模 型 出 现 之 前 ， 每 年 很 多 计算 机 视 
觉 专家 和 学 者 都 会 提出 各 种 基于 人 工 定义 的 特征 提取 算 子 和 图 像 分 类 模型 , 但 是 最 终 精 度 的 提升 
并 不 是 很 明显 。 当 时 人 们 认为 在 ImageNet 数据 集 上 能 够 提升 1 个 百分点 就 已 经 是 非常 了 不 起 的 
进步 了 。 虽 然 在 2012 年 之 前 ， 吴 恩 达 、 余 凯 ( 地平 线 机 器 人 公司 创始 人 ) 等 人 一 直 在 坚持 使 用 
神经 网 络 对 图 像 特征 进行 自动 学 习 , 但 是 由 于 缺乏 足够 的 理论 支撑 和 实际 实验 效果 的 证 明 , 他 们 
没有 被 当时 计算 机 视觉 界 的 主流 学 者 认可 。 直 到 AlexNet 模 型 出 现 后 , 计算 机 视觉 研究 者 对 神经 
网 络 和 深度 学 习 的 看 法 才 得 到 颠覆 性 的 改变 。 

从 2012 年 开始 到 现在 的 短 短 几 年 时 间 内 ， 无 论 在 学 术 界 还 是 工业 界 ， 深 度 学 习 都 出 现 了 爆 
炸 式 的 发 展 。 人 工 智能 要 解决 的 问题 主要 包括 感知 、 推 理 、 决 策 和 联想 等 。 当 前 深度 学 习 模 型 在 
处 理 感知 问题 上 相对 比较 成 熟 。 比 如 , 在 大 规模 的 测试 集 下 ,深度 学 习 识别 图 像 或 语音 的 准确 率 
可 以 做 到 很 高 , 甚至 在 有 些 场 景 下 超过 人 类 的 识别 准确 率 。 深 度 学 习 在 自然 语言 处 理 上 的 应 用 也 
取得 了 不 少 进步 。Microsoft 、Google 、Facebook、 百 度 等 公司 已 经 宣布 深度 学 习 模 型 在 机 器 翻译 
上 的 表现 要 明显 好 于 其 他 模型 。 深 度 学 习 和 强化 学 习 的 结合 ( 即 深 度 强 化 学 习 ) 有 望 攻克 推理 、 
决策 等 更 高 级 的 人 工 智 能 问题 。 已 被 Google 收购 的 DeepMind 公司 推出 的 AlphaGo 机 器 人 正 是 
采用 了 深度 强化 学 习 技 术 来 学 习 如 何 下 围棋 ， 并 在 2016 年 3 月 与 韩国 顶级 围棋 选手 李 世 至 的 比 
赛 中 以 总 比分 4 : 1 取得 胜利 。2017 年 5 月 , 第 二 代 AlphaGo 机 器 人 与 围棋 世界 第 一 成 绩 的 保持 
者 柯 洁 比 赛 ， 以 总 比分 3 : 0 取得 了 胜利 。 

在 深度 学 习 模 型 中 , 模型 的 复 森 度 会 随 着 网 络 深度 的 增加 而 成 指数 增加 。 随 着 大 数据 时 代 的 
到 来 ， 以 及 深度 学 习 模 型 设计 和 训练 方法 的 改进 ,我们 可 以 训练 更 深 、 更 复杂 的 模型 ， 同 时 避免 
过 拟 合 现 象 。 另 外 ，GPTU 等 硬件 设备 和 分 布 式 集群 计算 能 力 的 增强 ， 使 得 深度 学 习 模 型 的 训练 
时 间 大 幅 降低 。 这 些 因素 共同 促进 了 当前 深度 学 习 的 广泛 应 用 。 

相信 在 接 下 来 的 几 年 中 ,深度 学 习 和 其 他 学 习 策 略 ( 如 对 偶 学 习 、 迁 移 学 习 等 ) 的 结合 ， 以 
及 新 型 深度 学 习 网 络 模型 ( 如 记忆 网 络 、 复 数 深度 学 习 等 ) 的 发 明 会 带 来 更 多 的 突破 性 技术 ,， 进 
而 对 人 工 知 能 在 各 个 行业 的 应 用 产生 广泛 而 深远 的 影响 。 


8.2 ”深度 学 习 的 主要 应 用 


深度 学 习 模型 特别 擅长 拟 合 复杂 的 非 线性 函数 , 这 使 得 它 可 以 用 于 很 多 非 结构 化 数据 的 特征 
提取 (或 特征 学 习 )。 这 些 非 结构 化 数据 包括 计算 机 视觉 中 的 图 像 视频 、 自 然 语 言 处 理 中 的 句子 
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和 强化 学 习 中 的 状态 ( 可 能 是 图 像 或 者 其 他 ) 等 。 下 面 分 别 介绍 深度 学 习 在 计算 机 视觉 、 自 然 语 
言 处 理 和 强化 学 习 中 的 应 用 。 


8.2.1 计算 机 视觉 


计算 机 视觉 是 一 门 交叉 学 科 。 它 融 合 了 物理 学 、 信息 学 、 计 算 机 科学 、 人 工 智 能 等 多 项 技术 ， 
并 广泛 应 用 于 多 种 领域 ,如 工业 制造 、 医 学 辅助 诊断 、 视 频 监控 等 。 计 算 机 视觉 研究 的 重点 之 一 
是 从 图 像 和 视频 中 获取 人 们 感 兴趣 的 信息 或 知识 。 和 常见 的 计算 机 视觉 任务 包括 图 像 分 类 、 图 像 匹 
配 、 物 体检 测 、 目 标 跟踪 、 视 频 分 析 与 理解 等 。 这些 任务 共同 的 难点 在 于 图 像 特征 提取 。 特 征 提 
取 的 传统 做 法 是 人 工 设计 各 种 图 像 特征 提取 算 子 ， 如 SIFT ( Scale-Invariant Feature Transform )、 
LBP (Local Binary Pattern )、HOG ( Histogram of Oriented Gradients ) 等 ， 并 将 这 些 算 子 应 用 于 某 
个 具体 的 计算 机 视觉 任务 。 为 了 适应 不 同 的 任务 需求 , 算法 开发 者 需要 人 工 设计 不 同 的 特征 提取 
算 子 和 相应 的 图 像 处 理 模 型 。 然 而 ， 人 工 设 计算 子 或 模型 精度 往往 不 会 很 高 ， 而 且 通 常会 有 一 些 
限制 ， 尤 其 对 光照 、 遮 挡 等 现象 的 健壮 性 较 差 。 

在 20 世纪 90 年 代 ，CNN 模型 已 经 开始 用 于 数字 和 字母 识别 。2012 年 ，Geoffery Hinton 领 
导 的 团队 利用 深度 卷 积 神经 网 络 取 得 了 大 规模 图 像 分 类 领域 内 里 程 碑 式 的 突破 。 到 现在 为 止 ， 
CNN 模型 的 深度 还 在 不 断 增加 ( 例如 ， 有 些 模型 已 经 超过 1000 局 。 表 8-1 列 出 了 近年 来 常用 的 
CNN 模型 的 精度 随 深度 的 变化 趋势 (其 中 ， 图 像 分 类 精度 参考 ILSVRC 竞赛 结果 ， 物 体 体 测 精 
度 参考 相关 论文 和 部 分 开源 实现 )。 可 以 看 出 ， 在 一 般 情 况 下 模型 精度 会 随 深度 增加 而 增加 。 在 
ImageNet 图 像 分 类 方面 ， 深 度 学 习 的 识别 精度 已 经 超过 了 人 有 眼 。 在 图 像 检 测 、 图 像 分 割 等 方面 ， 
深度 学 习 的 精度 也 在 不 断 提 高 。 

表 8-1 近年 来 常用 的 CNN 模型 的 精度 随 深度 变化 的 趋势 


任务 类 型 深度 卷 积 神经 网 络 模型 深度 〈 层 数 ) 精 度 

图 像 分 类 VGG 19 92.7% (Top5 accuracy) 
图 像 分 类 GoogLeNet 22 93.3% (Top5 accuracy) 
图 像 分 类 ResNet 152 96.43% (Top5 accuracy) 
物体 检测 RCNN + AlexNet 8 58% (mAP) 

物体 检测 Faster RCNN + VGG16 16 71% (mAP) 

物体 检测 Faster RCNN + ResNet10 101 76% (mAP) 


深度 CNN 模型 使 得 端 到 端的 图 像 处 理 和 分 析 成 为 可 能 。 比 如 ， 我 们 可 以 构造 一 个 输入 为 图 
像 、 输 出 为 感 兴趣 目标 (包含 其 位 置 、 大 小 等 量化 信息 ) 的 深度 卷 积 网 络 模 型 ， 并 设计 特定 的 损 
失 函 数 和 训练 策略 。 该 模型 可 以 将 原始 图 像 像素 直接 映射 到 最 终 的 物体 检测 结果 。 近 年 来 流行 的 
SSD ( Single Shot MultiBox Detector ) 物体 检测 模型 就 是 这 样 做 的 。 深 度 CNN 模型 灵活 多 变 ， 我 
们 可 以 通过 组 合 不 同 的 子 网 络 .构造 相应 的 损失 函数 和 设计 特定 的 训练 方法 , 得 到 更 复杂 的 模型 。 
例如 ，Faster RCNN 模型 就 由 多 个 网 络 构成 ， 它 包括 基础 网 络 ( 用 于 特征 提取 )、RPN (Region 
Proposal Network， 用 于 提取 物体 候选 框 )、 分 类 网 络 和 回归 网 络 ( 用 于 对 候选 框 位 置 和 大 小 做 回 
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归 ， 以 及 对 候选 框 中 的 物体 做 分 类 )。 

另外 , 深度 卷 积 神经 网 络 提取 的 特征 具有 很 好 的 通用 性 。 如 果 我 们 要 在 一 份 新 的 数据 集 上 训 
练 模型 ， 那 么 可 以 将 已 在 其 他 数据 集 (如 ImageNet ) 上 训练 好 的 模型 参数 作为 新 模型 参数 的 初 
始 值 ， 然后 只 训练 该 模型 的 最 后 几 层 即 可 。 这 说 明 深度 卷 积 神经 网 络 具 有 迁移 学 习 的 特点 ， 即 一 
个 数据 集 上 训练 好 的 模型 可 以 通过 微调 迁移 用 在 另外 一 个 数据 集 上 。 特别 是 当 新 的 数据 集中 训练 
数据 较 少 时 ， 我 们 通过 这 种 微调 的 方式 可 以 很 容易 得 到 一 个 精度 较 高 的 模型 。 

目前 , 深度 卷 积 神经 网 络 与 各 类 计算 机 视觉 任务 和 应 用 场景 的 不 断 融合 , 逐渐 催生 出 各 类 卷 
积 神经 网 络 模型 框架 。 虽然 深度 卷 积 神经 网 络 在 计算 机 视觉 中 的 应 用 越 来 越 广泛 , 但 是 其 计算 复 
杂 度 高 。 如 何 提升 计算 速度 并 降低 计算 功 耗 就 显得 尤为 重要 , 这 也 是 当前 深度 学 习 领 域 很 重要 的 
研究 方向 。 


8.2.2 ”自然 语言 处 理 


自然 语言 处 理 是 一 门 综合 了 语言 学 、 数 学 与 计算 机 科学 的 交叉 学 科 , 其 目的 是 让 计算 机 能 
理解 人 类 的 语言 , 并 根据 语言 中 的 语义 信息 去 执行 其 他 工作 。 自 然 语言 处 理 的 任务 从 易 到 难 主要 


在 于 语言 的 多 义 性 和 语法 的 复杂 性 。 

传统 的 自然 语言 处 理 方法 需要 手工 提取 特征 、 规 则 并 进行 句法 分 析 。 比 如 ，WordNet、 
ConceptNet、FrameNet 这 些 经 典 的 模型 主要 通过 手工 方法 建立 起 词 与 词 之 间 的 语义 关系 。 因 为 词 
语 或 短语 的 种 类 非常 多 ， 其 组 合 更 多 , 所 以 计算 机 很 难 遍 历 所 有 的 情况 ,这 也 正 是 自然 语言 处 理 


单词 、 短 语 、 句 子 中 的 特征 并 将 其 量化 表示 ， 甚 至 可 以 端 到 端 地 完成 一 个 自然 语言 处 理 任 务 。 例 
如 ，Seq2Seq 模型 可 以 用 于 机 器 翻译 ， 并 且 效 果 比 传统 模型 好 。 

自然 语言 处 理 的 一 项 基础 工作 是 将 句子 中 的 每 个 单词 向 量化 表示 以 方便 后 续 处 理 。 最 简单 的 
一 种 方式 是 用 One-Hot 编码 形式 表示 每 个 单词 ,假设 词汇 表 有 1000 个 词 ,那么 每 个 词 需要 用 1000 
维 向 量 表示 。 根 据 单词 在 词汇 表 中 的 索引 位 置 确定 该 1000 维 向 量 中 哪个 值 为 1。 然 而 ， 这 种 表 
示 方 法 中 单词 之 间 是 两 两 正 交 的 ， 我 们 无 法 得 到 词语 之 间 的 相似 度 ， 也 就 无 法 判别 其 语义 信息 。 
后 来 ， 有 人 提出 采用 word-documents 方式 建立 和 矩阵， 用 每 个 词语 在 文档 中 出 现 的 次 数 来 表示 词 
向 量 。 还 有 人 提出 基于 co-occurrence matrix 的 方法 : 先 建 立 一 个 词语 矩阵 (对称 和 矩阵 ), 行列 都 
依次 为 每 个 词语 ; 然后 遍历 整个 语料库 , 对 相 邻 两 个 同时 出 现 的 词 在 词语 矩阵 相应 的 位 置 上 加 1; 
最 后 基于 该 词汇 矩阵 做 SVD ( Singular Value Decomposition ) 以 得 到 词 向 量 。 不 过 ， 这 些 方法 都 
有 比较 大 的 问题 : 首先 ， 这 些 和 矩阵 都 是 很 高 维度 而 且 稀疏 的 ， 训 练 比较 困难 ; 其 次 ， 如 果 词 汇 表 
增加 ， 就 需要 更 新 矩阵 并 重新 训练 词 向 量 模型 ， 代 价 很 高 。 

神经 网 络 模型 用 于 词 向 量 表达 ( 将 一 个 词 用 天 维 实数 的 向 量 表 示 ， 且 K<<|V|， 其 中 |V| 为 
词汇 表 大 小 ) 可 以 避免 传统 词 向 量 模型 的 缺点 。CBOW ( Continuous Bag-of-Words ) 和 Skip-Gram 
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是 常用 于 词 向 量 表示 的 经 典 模型 ， 其 基本 思想 和 自 编码 器 比较 类 似 。 在 CBOW 模型 中 ， 首 先 假 
设 存在 一 个 未 知 的 词 向 量 生成 矩阵 达 ,， 且 每 个 词语 (其 词 向 量 为 Vx) ) 前 后 的 几 个 词 (这 些 词 的 
词 向 量 为 V1)…, Vx 一 1), V(x +1)…, Vln) ) 组 成 了 该 词 的 上 下 文 。 然 后 根据 此 上 下 文中 每 个 词 
经 歼 变 换 后 的 词 向 量 得 到 一 个 平均 向 量 , 再 根据 这 个 平均 向 量 预测 该 词 , 通过 迭代 训练 来 学 习 球 
中 的 未 知 参数 。 这 种 方法 训练 出 来 的 词 向 量 模型 具有 和 较 强 的 上 下 文 语义 关系 。 而 Skip-Gram 与 
CBOW 正好 相反 ， 它 是 利用 当前 词 来 预测 上 下 文 的 。 

以 句子 中 每 个 单词 的 词 向 量 为 基础 ， 我 们 可 以 计算 出 每 个 单词 在 整个 语料库 中 出 现 的 概率 ， 
然后 通过 计算 所 有 单词 的 联合 概率 得 到 整个 句子 的 概率 , 从 而 建立 统计 语言 模型 。 假设 一 个 句子 
中 的 每 个 单词 对 应 的 词 向 量 依次 为 的 D) …, Vln)， 那 么 整个 句子 的 概率 为 : 

P= P(V1),…, Vn)) = P(VO)) PTVONVO)): PR - 1),Vn — 2),…, 1)) 

一 个 句子 的 概率 越 高 ， 这 个 句子 就 越 有 意义 。 然 而 , 正如 上 述 公 式 所 示 , 计算 一 个 句子 中 所 有 
单词 的 联合 概率 是 非常 复杂 的 。 为 了 简化 计算 ， 通 常 我 们 都 采用 n-gram 语言 模型 。 在 n-gram 模型 
中 , 计算 每 个 词 的 条 件 概 率 时 , 我 们 需要 用 到 该 词 的 前 个 词 。 当 n=1 时 , 整个 句子 的 概率 简化 为 : 

P= P(V1),…, Vn)) = P(VOU)) PTVONVO)): :PVT - 1)) 

Yoshua Bengio 等 人 于 2003 年 提出 了 一 种 使 用 神经 网 络 同时 训练 词 向 量 和 语言 模型 的 方法 ， 
这 是 将 神经 网 络 用 于 自然 语言 处 理 的 经 典 工作 之 一 。 该 方法 的 实现 机 制 如 图 8-6 所 示 。 在 计算 每 
个 词语 的 上 下 文 关系 时 ， 该 模型 可 以 捕捉 到 更 广 范围 内 的 词语 间 依 赖 关系 。 

下 一 个 单词 zs 取 值 的 概率 


XD 的 索引 Xi 的 索引 x 的 索引 


图 8-6 ”Yoshua Bengio 等 人 提出 的 词 向 量 学 习 和 语言 学 模型 


然而 ， 上 述 语言 模型 本 质 上 仍 是 n-gram 模型 ， 只 能 根据 前 儿 个 词 预测 到 下 一 个 词 (一 般 
n-gram 模型 中 n 比较 小 )。 现 在 大 部 分 语言 模型 都 基于 RNN 模型 实现 ， 如 图 8-7 所 示 。RNN 模 
型 中 隐藏 层 状态 的 横向 传递 使 得 更 早 之 前 的 单词 信息 被 利用 起 来 。 


如 8.1.3 节 所 述 ， 如 果 作 为 RNN 输入 的 时 间 序 列 (句子 等 ) 的 依赖 关系 较 长 ， 那 么 用 BPTT 
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算法 训练 模型 时 就 会 出 现 梯度 弥散 现象 LSTM 可 以 在 一 定 程度 上 改善 梯度 弥散 现象 ,修改 LSTM 
基本 单元 内 部 的 控制 门 和 控制 边 ,或 者 融合 细胞 状态 和 隐藏 状态 ,可 以 构造 出 很 多 LSTM 的 变种 ， 
比如 在 神经 机 器 翻译 上 常用 的 GRU ( Gated Recurrent Unit )。 


RNN 模 型 


Xo 的 索引 Xi 的 索引 x 的 索引 


图 8-7 基于 RNN 的 语言 学 模型 


不 同 于 以 条 件 随机 场 ( CRF ) 和 隐 马 尔 可 夫 模 型 (HMM ) 等 为 代表 的 传统 自然 语言 处 理 模 
型 , 神经 网 络 和 深度 学 习 可 以 同时 完成 词 向 量 和 语言 模型 的 学 习 , 从 而 实现 端 到 端的 学 习 。 例如， 
目前 以 RNN、LSTM 等 为 基础 的 深度 学 习 模 型 已 经 成 功 应 用 于 Google 、Microsoft、 百 度 等 企业 
的 机 器 翻译 系统 ， 它 们 的 精度 远 超 传统 统计 翻译 模型 。 随 着 RNN、LSTM 模型 层 数 的 增加 ， 模 
型 的 特征 学 习 能 力也 会 增加 。 当 训练 数据 较 多 的 时 候 ， 我 们 可 以 采用 多 层 RNN、LSTM 模型 以 
提升 训练 精度 。 但 一 般 而 言 ， RNN、LSTM 模型 的 层 数 不 会 像 CNN 那样 有 几 十 层 或 几 百 层 。 当 
前 业界 最 新 的 一 些 用 于 机 器 翻译 的 RNN、LSTM 模型 的 层 数 大 多 在 10 层 以 内 。 

此 外 ， 以 多 层 RNN、LSTM 等 为 代表 的 深度 学 习 模 型 还 用 于 自然 语言 对 话 、 问 答 系 统 、 视 
频 摘要 等 任务 。 需 要 注意 的 是 ，CRF 等 经 典 模型 有 很 好 的 概率 图 模型 理论 做 支撑 , 所 以 人 们 也 常 
将 RNN 或 LSTM 模型 与 CRF 等 结合 起 来 使 用 。 


8.2.3 ”强化 学 习 

机 器 学 习 算法 通常 分 为 三 大 类 : 监督 学 习 、 非 监督 学 习 和 强化 学 习 。 不 同 于 其 他 两 类 算法 ， 
强化 学 习 是 一 个 动态 的 过 程 。 在 强化 学 习 算 法 中 ,存在 一 个 Agent (智能 体 ) 及 其 所 在 的 
Environment ( 环境 )。 在 时 刻 :，Agent 从 Environment 中 获得 观测 信号 O(0， 并 计算 出 下 一 步 的 
执行 动作 4(D。 同 时 ，Agent 得 到 Environment 的 回报 信号 RD。Environment 在 被 Agent 的 动作 
A(D) 影响 后 ， 再 发 出 下 一 步 的 观测 信号 OU+1) 和 回报 信号 RU+l)。 如 图 8-8 所 示 ， 在 Agent 与 
Environment 相互 作用 的 过 程 中 ,Agent 的 模型 得 到 不 断 训 练 。 强 化 学 习 可 以 用 于 机 器 人 自动 控制 、 
金融 投资 、 游 戏 博 弈 、 推 荐 系统 、 多 轮 对 话 ( 智能 助理 ) 等 场景 。 
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Environment 


Observation 


图 8-8 强化 学 习 中 Agent 和 Environment 的 交互 过 程 

强化 学 习 算 法 主要 包含 三 部 分 模型 。 

口 Agent 策略 模型 : 其 输入 是 观测 信号 ， 输 出 是 动作 。 

口 Agent 值 函数 模型 : 用 于 计算 未 来 交大 信号 累计 值 的 期 望 ， 并 评价 Agent 的 状态 和 行为 的 
好 坏 。 其 中 ， 状 态 是 指 该 时 刻 前 的 一 系列 观测 信号 、 回 报信 号 和 动作 所 组 成 的 序列 的 函 
数 ， 而 值 函数 通常 是 指 当 前 状态 下 对 未 来 回报 的 期 望 值 。 

口 Environment 模型 : 用 来 预测 环境 在 一 定 状 态 下 接收 到 一 定 的 动作 信号 后 ， 所 产生 的 新 
状态 和 回报 信号 。 


Agent 通过 迭代 方式 学 习 到 策略 模型 和 值 函 数 模型 。 在 策略 模型 中 ，Agent 根据 当前 观测 信 
号 选择 最 优 的 动作 ， 使 得 后 续 得 到 的 回报 信号 期 望 值 最 大 。 在 值 函 数 模型 中 ，Agent 根据 当前 的 
观测 信号 和 采取 的 动作 预测 将 会 得 到 的 回报 信和 号。 在 复杂 的 强化 学 习 算 法 中 , 策略 模型 和 值 函 数 
模型 都 是 高 度 非 线性 的 复杂 模型 。 

深度 学 习 通过 多 层 网 络 可 以 模拟 非常 复杂 的 非 线性 函数 , 上 且 能 够 处 理 很 高 维 的 输入 ( 如 图 像 、 
视频 )， 因 此 可 以 用 在 策略 模型 和 值 函数 模型 中 。 例 如 ， 在 Q-Learning (一 种 常用 的 强化 学 习 算 
法 ) 中 ， 基 于 深度 学 习 的 值 函 数 模型 为 Deep Q-Network。Deep Q-Network 的 输入 为 当前 状态 和 
执行 的 动作 ， 输 出 为 所 期 望 得 到 的 最 终 回报 。 在 相应 的 策略 模型 中 ， 最 优 策 略 是 使 得 Deep 
Q-network 输出 最 大 的 动作 策略 。 可 以 将 Q-Network 的 求解 描述 成 一 个 迭代 式 : OG, a) =a: (r+ 
ymaxaO (sa)))+(1+Q)* QO(s, qa)， 其 中 a、s、r 分 别 为 动作 、 状 态 和 回报 信号 ，y 为 折扣 因子 ，a 
为 学 习 速 率 , 清 Q-Network 的 输出 取决 于 当前 回报 值 和 在 最 优 动 作 下 Q-Network 的 未 来 输出 值 。 


很 多 强化 学 习 算 法 ， 如 Actor-Critic、DDPG ( Deep Deterministic Policy Gradient ) 都 使 用 深 
度 学 习 实 现 策略 模型 和 值 函 数 模 型 ,以 提升 学 习 的 稳定 性 并 挑战 困难 的 任务 。 当 前 强化 学 习 人 研究 
的 热潮 正 是 传统 强化 学 习 和 深度 学 习 的 结合 所 带 来 的 。 深度 学 习 的 出 现 使 得 强化 学 习 可 以 实现 真 
正 的 端 到 端 训 练 。 比 如 ， 在 自动 驾驶 中 ， 输 入 是 摄像 头 拍 摄 的 实时 画面 ( 即 当 前 状态 )， 输 出 即 
为 方向 盘 的 控制 方向 或 者 车 速 大 小 。 传 统 的 模型 难以 处 理 图 像 、 视 频 这 一 类 非常 高 维 的 非 结构 化 
数据 ， 因 此 人 们 常 借助 深度 CNN 模型 来 提取 特征 。 以 OpenAI、DeepMind 为 代表 的 机 构 或 公司 
正在 加 大 对 深度 强化 学 习 的 投入 ， 它 们 开放 了 各 自 的 深度 学 习 算 法 测试 环境 ( 如 OpenAIGym )。 
随 着 大 数据 、 深 度 学 习 、 分 布 式 计算 、 开 源 训练 平台 和 测试 环境 的 发 展 ,深度 强化 学 习 将 给 人 工 
智能 中 一 些 高 级 问题 的 解决 带 来 更 强 的 驱动 力 。 
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8.3 深度 学 习 与 TensorFlow 


近年 来 ,深度 学 习 模 型 在 语音 和 图 像 识别 准确 率 上 的 突破 彻底 引 


爆 了 这 一 领域 。 短 短 几 年 的 


时 间 内 ,深度 学 习 热 潮 席 卷 了 工业 界 和 学 术 界 。 它 在 图 像 、 视 频 、 语 音 、 语 义 、 对 话 和 翻译 等 方 
面 取得 的 发 展 ， 主 要 得 益 于 大 数据 、 神 经 网 络 、 优 化 算法 、 高 性 能 计算 设备 (GPU 等 )、 分 布 式 


计算 等 技术 的 进步 。 除 此 之 外 , 开源 软件 生态 系统 也 极 大 地 促进 了 深度 学 习 领 域 的 发 展 。 这 些 软 


件 使 得 新 想法 得 以 快速 实验 , 同时 使 得 更 多 的 数据 科学 家 和 算法 工程 
应 用 开发 中 , 形成 了 良性 循环 。 另 外 ,在 当前 深度 学 习 的 可 解释 性 悍 


师 参 与 到 深度 学 习 的 研究 和 
论 研究 比较 滞后 的 情况 下 ， 


研究 人 员 更 加 需要 高 效 的 次 度 学 习 开 发 工具 以 快速 获得 实验 结果 , 加速 理论 的 验证 。 从 深度 学 习 
领域 的 特点 出 发 ， 它 对 计算 引擎 的 需求 主要 体现 在 以 下 几 个 方面 。 在 这 几 个 方面 ，TensorFlow 均 


提供 了 强 有 力 的 支撑 。 


口 深度 学 习 所 涉及 的 模型 、 算 法 在 底层 大 多 可 以 转换 为 多 维和 矩阵 或 张 量 计算 。 因 此 ， 深 度 
学 习 引 擎 首先 必须 是 一 个 优秀 的 张 量 计算 库 。 一 般 情况 下 ， 随 着 数据 量 的 增加 ， 深 度 学 
习 模 型 的 复杂 度 可 以 变 得 更 高 ， 从 而 使 得 模型 的 准确 率 进一步 提升 。 这 就 意味 着 深度 学 


习 模 型 对 于 和 矩阵 计算 速度 的 要 求 越 来 越 高 。 作 为 一 款 异 构 计 算 


引擎 ， 开 源 的 TensorFlow 版 


本 已 经 支持 CPU、GPU 两 种 计算 设备 。 在 深度 学 习 模型 训练 过 程 中 ，CPU 通 常用 于 数据 读 
取 、 预 处 理 、 网 络 通信 等 ，GPU 主要 用 于 密集 的 张 量 计 算 。 用 户 还 可 以 利用 TensorFlow 


XLA 将 深度 学 习 模型 部 署 在 其 他 硬件 设备 ( 如 AI 专用 芯片 等 


) 上 ， 以 进一步 加 速 计算 。 


口 深度 学 习 模 型 仍 在 快速 发 展 ， 而 且 CNN 、RNN 等 模型 也 在 不 断 彼此 融合 。 即 使 对 于 独 


立 的 CNN 或 RNN 模 型， 模型 内 部 也 有 很 多 算 子 层面 的 变化 ， 
可 以 有 多 个 分 支 ， RNN 模型 的 每 个 单元 也 包括 多 个 复杂 的 矩 


比如 CNN 模型 的 每 一 层 内 
阵 运 算 。 因 此 ， 深 度 学 习 引 


擎 必须 要 足够 灵活 以 支撑 更 多 的 模型 及 其 变种 。TensorFlow 引擎 的 算 子 很 丰富 ， 并 且 用 


户 可 以 方便 地 添加 自 定义 算 子 ， 这 使 得 TensorFlow 可 以 自 


地 表达 任意 的 深度 学 习 或 其 


他 机 融 学 习 模 型 。 
口 深度 学 习 模型 的 训练 主要 依赖 于 经 典 的 后 向 传播 算法 。 为 了 训练 模型 ， 每 一 层 参数 的 梯 


度 都 要 被 计算 ， 但 是 随 着 模型 层 数 的 增加 ， 直 接 计 算 参 数 的 梯度 过 于 复杂 。 在 后 向 传播 算 


法 中 ， 误 差 的 逐 层 传递 可 以 使 得 每 层 参 数 的 梯度 计算 变 得 非常 


所 依赖 的 正 是 数学 中 也 数 求 导 时 常用 的 链 式 法 则 。TensorFlow 


简单 。 这 种 逐 层 传递 的 计算 
引擎 支持 自动 微分 ， 用 户 只 


需要 写 好 数据 流 图 的 前 向 计算 过 程 ，TensorFlow 运行 时 就 能 自动 生成 数据 流 图 的 后 向 计算 
部 分 。 这 使 得 用 户 不 需要 关心 复杂 的 后 向 计算 过 程 ， 从 而 能 够 专注 于 设计 模型 的 架构 。 


口 


深度 学 习 模 型 的 训练 是 一 个 极 耗 资源 的 过 程 。 虽 然 GPU 或 AI 专用 芯片 的 计算 能 力 在 逐 


年 提升 ,但 是 单个 计算 设备 的 能 力 仍然 有 限 。 因 此 ， 分 布 式 训练 对 于 深度 学 习 而 言 非常 
有 必要 。 训 练 效 率 的 提升 有 助 于 模型 或 算法 开发 者 尝试 更 多 新 的 想法 ， 加 快 研发 进度 。 
TensorFlow 对 分 布 式 训练 的 支持 比较 完善 。 尤 其 是 引入 对 MPI、NCCL 等 的 文 持 之 后 ， 


分 布 式 效率 有 了 很 大 提升 。 自 Google 提出 AutoML 以 来 , 采 


用 强化 学 习 自 动 寻 找 最 优 的 


深度 学 习 模型 架构 可 能 会 成 为 未 来 的 重要 趋势 。 然 而 ， 基 于 强化 学 习 的 深度 学 习 模型 架 
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构 优 化 会 不 断 尝 试 不 同 的 架构 并 实验 ， 其 消耗 的 计算 资源 会 更 多 ， 这 使 得 分 布 式 训练 更 
为 必要 。 可 以 预见 ， 以 后 模型 或 算法 开发 者 对 分 布 式 训练 的 需求 会 越 来 越 多 。 
深度 学 习 模 型 的 训练 是 一 个 非常 考验 调 参 技巧 的 过 程 。 一 些 关键 的 参数 包括 梯度 下 降 时 
的 学 习 速率 、 批 大 小 等 。 到 现在 为 止 ， 学术 界 和 工业 界 一 直 没 有 找到 很 好 的 自动 调 参 方 
法 ， 仍 需 依赖 人 工 经 验 。 因 此 ， 在 深度 学 习 模 型 训练 过 程 中 ， 数 据 科 学 家 或 算法 工程 师 
的 参与 非常 必要 。 这 就 要 求 深度 学 习 引 擎 能 够 提供 便利 的 工具 链 ， 包 括 可 视 化 工具 、 调 
试 工具 、 调 优 工具 等 。TensorFlow 提供 的 TensorBoard 就 是 一 款 很 好 的 可 视 化 工具 ， 方便 
我 们 观察 训练 过 程 中 任意 参数 和 梯度 的 变化 ， 并 及 时 终止 超 参 设置 不 好 的 模型 。 在 开源 
贡献 者 的 努力 下 ， 其 他 TensorFlow 周边 工具 也 在 不 断 涌现 。 
深度 学 习 模 型 一 旦 训练 完成 、 达 到 预期 的 精度 之 后 ， 通 常 就 需要 被 部 署 并 提供 推理 服 
务 。 模 型 的 训练 一 般 在 云 侧 进行 ， 而 推理 可 以 在 云 侧 或 端 侧 进行 。 就 人 工 智 能 应 用 的 推 
理 态 而 言 ， 相 比 于 云 侧 ， 目 前 端 侧 的 市 场 空间 可 能 更 大 ， 例 如 城市 安防 、 自 动 驾 驶 等 都 
是 潜在 的 广阔 应 用 领域 。 因 此 ， 深 度 学 习 引 擎 需要 满足 端 侧 轻 量 化 部 署 的 需求 。 
TensorFlow 在 设计 之 初 也 充分 考虑 了 端 侧 的 特点 。XLA 特性 支持 为 异 构 硬 件 生成 目标 代 
人 码 ， 不 仅 可 以 提升 模型 运行 效率 ， 而 且 可 以 实现 轻 量化 部 署 ; TensorFlow Lite 也 为 移动 
设备 上 的 模型 运行 提供 了 多 种 优化 手段 。 

综 上 ,深度 学 习 对 于 张 量 计算 性 能 、 算 子 灵活 性 、 自 动 微分 能 力 、 分 布 式 训 练 、 可 视 化 和 端 
侧 部 署 等 都 有 很 强 的 诉求 ， 而 TensorFlow 的 设计 也 充分 考虑 到 了 这 些 因素 ， 这 使 得 它 成 为 了 当前 
业界 很 流行 的 一 个 深度 学 习 引 擎 .此 外 ,在 Google 研发 团队 和 广大 开源 爱好 者 的 努力 下 ,TensorFlow 
项 目 本 身 在 飞速 迭代 和 进步 。 例 如 ， 在 易 用 性 方面 ，TensorFlow 新 近 推 出 的 Eager 模式 支持 命令 
式 编 程 ， 使 得 算法 的 开发 、 调 试 更 加 方便 ;，Estimator、Dataset、Experiment 等 高 级 API 则 简化 了 
复杂 模型 的 设计 过 程 。TensorFlow 项 目的 contrib 目录 汇集 了 从 模型 、 算 法 到 系统 等 多 个 层面 的 大 
量 第 三 方 贡献 ， 使 得 研发 人 员 能 够 快速 利用 更 多 新 的 特性 来 加 速 深 度 学 习 理 论 研究 和 应 用 开发 。 
可 以 看 出 , 深度 学 习 的 理论 、 算 法 同 深度 学 习 计 算 引 苟 的 发 展 总 是 相互 影响 的 ,理论 和 算法 的 突 
破 会 对 计算 引擎 提出 更 多 的 需求 ， 而 计算 引擎 本 身 的 增强 也 会 有 力 地 推动 理论 和 算法 的 进步 。 


口 


口 
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深度 学 习 源 自 1957 年 出 现 的 感知 机 模型 ， 在 六 十 年 左右 的 发 展 中 经 历 了 两 次 寒冬 和 两 次 复 
苏 。 最 近 几 年 , 深度 学 习 的 爆发 源 于 互联 网 和 智能 终端 时 代数 据 量 的 暴 增 、 高 性 能 和 分 布 式 计算 
设备 处 理 能 力 的 增强 , 以 及 人 工 智能 与 神经 网 络 算法 的 改进 等 因素 。 由 于 深度 神经 网 络 模型 在 非 
线性 函数 拟 合 方面 具有 独特 的 优势 , 它 在 计算 机 视觉 、 自 然 语 言 处 理 等 具有 非 结构 化 数据 的 领域 
取得 了 显著 的 应 用 效果 ,并 成 为 了 强化 学 习 的 助 推 剂 。 各 类 开源 计算 引擎 也 极 大 地 促进 了 这 一 领 
域 的 发 展 , 使 得 新 想法 得 以 快速 实验 , 形成 了 算法 与 系统 领域 的 有 益 互 动 与 良性 循环 。 TensorFlow 
之 所 以 能 够 在 众多 引擎 中 独占 鳌头 , 归功 于 它 在 算 子 灵活 性 、 分 布 式 训练 性 能 和 工具 链 完 善 性 等 
方面 的 优势 ， 同 时 也 离 不 开 社 区 的 贡献 。 


CNN 模型 


人 工 智能 希望 赋予 机 器 的 能 力 包 括 感 知 、 决 策 、 推 理 和 联想 等 。 当 前 ,深度 学 习 最 成 熟 的 应 
用 是 感知 ， 典 型 场景 包括 语音 识别 、 图 像 识 别 等 。CNN ( 卷 积 神经 网 络 ) 模型 对 于 非 结 构 化 数据 
具有 出 色 的 特征 提取 能 力 ， 是 一 种 经 典 的 感知 模型 , 已 被 广泛 应 用 于 图 像 、 语 音 和 视频 数据 的 处 
理 与 分 析 。 本 章 首先 分 析 CNN 模型 中 的 关键 层 , 并 介绍 当前 业界 几 种 经 典 的 CNN 模型 结构 。 然 
后 介绍 TensorFlow 社区 中 用 于 图 像 分 类 的 Python 库 一 一 TensorFlow-Slim， 并 讲解 其 软件 架构 和 
使 用 流程 。 最 后 介绍 CNN 模型 用 于 物体 检测 、 图 像 分 割 等 计算 机 视觉 问题 的 实例 ， 以 帮助 读者 
开拓 应 用 思路 。 


9.1 CNN 
申 经 网 络 和 深度 学 习 模型 种 类 繁多 ， 其 中 前 馈 神 经 网 络 是 相对 比较 成 熟 、 应 用 比较 广泛 的 
一 类 。 前 馈 神 经 网 络 模型 是 指数 据 流 只 治 一 个 方向 传递 的 模型 。 这 类 模型 的 主要 特征 表现 为 : 


(1) 通常 由 多 层 神经 元 构成 ; (2) 不 同 层 的 神经 元 之 间 存 在 连接 ， 而 同一 层 内 的 神经 元 之 间 没 有 连 
接 。 常 见 的 前 馈 神 经 网 络 包括 CNN 和 DBN 等 。 相 比 于 其 他 前 馈 神 经 网 络 ，CNN 模型 的 参数 较 
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少 , 泛 化 能 力 强 , 它 是 当前 深度 学 习 领 域 的 研究 热点 之 一 ， 其 应 用 也 越 来 越 广泛 。 本 节 首 先 简 要 
介绍 CNN 模型 ， 然 后 重点 介绍 该 模型 包含 的 主要 层 以 及 几 种 经 典 模型 。 


9.1.1 _ CNN 简 介 


CNN 模型 是 一 种 以 卷 积 为 核心 的 前 馈 神 经 网 络 模 型 。 卷 积 是 分 析 数 学 中 的 一 种 基础 运算 ， 
其 中 对 输入 数据 做 运算 时 所 用 到 的 函数 称 为 卷 积 核 。 卷 积 运算 是 指 卷 积 核 以 滑动 窗 的 形式 在 输入 
数据 的 各 个 位 置 上 做 小 范围 加 权 和 的 过 程 。 以 图 像 识 别 为 例 ， 卷 积 核 在 输入 图 像 上 不 断 滑动 时 ， 
卷 积 核 与 当前 滑动 窗口 内 的 输入 图 像 像 素 值 相 乘 后 求 和 即 得 到 输出 图 像 的 像素 值 。 这 个 运算 过 程 
与 图 像 处 理 算法 中 常用 的 空间 滤波 是 类 似 的 。 因此 , 卷 积 可 以 被 通俗 地 理解 为 一 种 “滤波 ”过 程 ， 
卷 积 核 与 输入 数据 作用 之 后 得 到 了 “滤波 ”后 的 图 像 ， 从 而 提取 出 了 图 像 的 特征 。 

CNN 模型 的 基本 架构 如 图 9-1 所 示 ， 可 以 看 出 ，CNN 模型 由 一 系列 的 层 不 断 堆 县 而 成 。 一 
些 复杂 的 CNN 模型 可 以 采用 多 个 堆 钱 的 层 同 时 对 输入 数据 做 处 理 , 卷 积 层 是 CNN 模型 的 主要 组 
成 模块 之 一 ， 它 所 对 应 的 数学 操作 即 为 卷 积 运算 。 除 了 必 备 的 卷 积 层 和 激活 层 之 外 ，CNN 模型 
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还 可 以 包含 其 他 层 ， 如 池 化 层 、 全 连接 层 、 批 归 一 化 层 等 。CNN 模型 的 每 一 层 都 可 以 代表 一 种 
数学 操作 。 这 些 操 作 有 些 是 线性 的 ， 比 如 卷 积 、 全 连接 、 批 归 一 化 操作 等 ;有些 是 非 线 性 的 ， 比 
如 池 化 、 激 活 操作 等 。 非 线性 操作 的 存在 保证 了 CNN 模型 是 一 个 非 线性 模型 ， 使 其 具备 强大 的 
学 习 能 力 。 训 练 后 的 CNN 模型 整体 上 可 看 作 一 种 非 线性 映射 ， 例 如 ， 它 可 以 将 图 像 像 素 映射 到 
该 图 像 的 类 别 ， 或 者 可 以 将 音频 信号 映射 到 其 相应 的 语义 信息 。 

输出 数据 


5 | 


其 他 层 (可 选 )| … i (可 选 ) 


vel 


输入 数据 
图 9-1 CNN 模 型 的 架构 图 


9.1.2 ” 卷 积 层 


卷 积 层 是 使 用 一 系列 卷 积 核 与 多 通道 输入 数据 做 卷 积 的 线性 计算 层 。 卷 积 层 的 提出 是 为 了 利 
用 输入 数据 ( 如 图 像 ) 中 特征 的 局 域 性 和 位 置 无 关 性 来 降低 整个 模型 的 参数 量 。 如 图 9-2 所 示 ， 
假设 该 卷 积 层 的 输入 数据 为 三 张 二 维 的 特征 图 I(1), WC2) 和 13)， 输 出 数据 为 两 张 二 维 的 特征 图 
0(1), 0Q2) (输入 和 输出 通道 数 分 别 为 3 和 2 )。 该 卷 积 层 的 参数 由 和 矩阵 CGi, 7) 和 25G) 表示 ， 其 中 ， 
i= 1,2 对 应 输出 数据 的 各 个 通道 ,j= 1,2,3 对 应 输入 数据 的 各 个 通道 。 卷 积 层 的 整体 计算 过 程 为 : 
当 i= 1 时 ， 卷 积 核 C(1,7) 与 二 维 数 据 10) 分 别 执行 卷 积 计算 ( 其 中 j= 1 2,3 )， 然 后 求 和 ， 再 加 
上 偏 置 5(1)， 得 到 第 一 个 输出 通道 对 应 的 输出 0(1)。 同 理 ， 当 i = 2 时 ， 卷 积 核 CC2, 7) 作 用 于 二 
维 数据 10)， 再 加 上 偏 置 5(2)， 得 到 第 二 个 输出 通道 对 应 的 输出 0(2) ( 其 中 j= 1, 2, 3 )。 由 此 可 
以 看 出 ， 卷 积 层 的 计算 是 线性 计算 。 

卷 积 计算 的 结果 与 卷 积 核 大 小 (假设 卷 积 核 的 长 度 和 宽度 相同 )、 步 长 s 和 补 零 p 这 三 个 参 
数 密切 相关 。 以 卷 积 核 C(1,1) 与 1(1) 的 卷 积 计算 为 例 ， 具 体 计 算 方法 如 下 。 

(1) 将 原始 输入 数据 在 x 和 yy 方 向 上 补 零 。 比 如 p = 1， 则 原始 输入 数据 的 四 周 多 了 一 圈 值 为 
0 的 点 。 


(2) 在 补 零 后 的 二 维 数据 上 ， 从 左上 角 开始 ， 大 小 为 kxk 的 卷 积 核 分 别 在 x 和 yy 方 向 上 以 间 
隔 s 进行 滑动 ， 完 成 对 二 维 数据 的 “扫描 ”"。 在 卷 积 核 滑 动 到 的 每 个 位 置 上 ， 以 该 位 置 为 中 心 的 
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面积 为 kx 的 输入 数据 与 该 卷 积 核 中 的 数据 在 对 应 位 置 上 一 一 相 乘 后 求 和 ， 就 得 到 该 位 置 所 对 
应 的 输出 值 。 假 设 输入 数据 的 大 小 为 m x m， 则 输出 数据 的 长 (或 宽 ) 为 n= (m+t2p - 昌 /s+1。 
TensorFlow 提供 了 两 种 补 零 方式 : VALID 和 SAME。 如 果 是 VALID 方式 ， 则 疡 = 0， 且 (wm - 有 As 
计算 结果 的 小 数 部 分 会 被 舍弃 〈 即 向 下 取 整 )， 所 以 n=| (m 一 有 )/s |+1。 如 果 是 SAME 方 式 ， 则 
输入 数据 的 四 周 均匀 补 零 ， 补 零 的 总 数 为 | (m -有 /sxs+tE-m ， 输 出 数据 的 长 (或 宽 ) 为 
1=| (=- 旭 /1s1+ (其 中 ，[Lz 表 示 对 * 向 下 取 整 ，| xj| 表 示 对 x 向 上 取 整 。 比 如 当 x* = 5.3 时， 
[x| =5,， [x| =6 )。 


Ws a 


101) 


图 9-2 CNN 模 型 中 的 卷 积 计 算 示 意图 


除了 上 述 卷 积 计 算 之 外 ， 也 有 其 他 形式 的 卷 积 计算 ， 比 如 扩张 卷 积 ( Dilated Convolution )。 
在 扩张 卷 积 中 ， 当 卷 积 核 与 对 应 位 置 的 滑动 窗口 内 输入 的 数据 相 乘 时 , 卷 积 计算 还 受 男 外 一 个 参 
数 4 的 控制 。 图 9-3a 为 传统 卷 积 计算 。 对 于 某 个 输入 通道 ， 卷 积 核 大 小 为 3x3 ， 输 入 数据 大 小 为 
5x5。 假 设 卷 积 核 滑 动 到 输入 数据 的 最 中 心 点 并 有 覆盖 到 3x3 的 窗口 ， 则 该 点 的 卷 积 输出 值 为 卷 积 
核 与 该 窗口 内 对 应 点 的 乘积 和 。 图 9-3b 为 扩张 卷 积 计算 (d= 1 )。 当 卷 积 核 滑动 到 输入 数据 的 中 
心 点 时 ， 卷 积 核 “所 覆盖 的 窗口 ”大 小 为 5x5， 卷 积 核 与 该 窗口 内 带 有 纹理 的 像素 点 相 乘 后 求 和 
输出 即 为 该 点 的 扩张 卷 积 输出 值 。 因 此 ,扩张 卷 积 运算 使 得 卷 积 核 履 六 的 区 域 更 广 ， 能够 将 局 域 


特征 和 非 局 域 特征 融合 ， 从 而 提取 多 尺度 的 特征 信息 。 


NAN 
NNN 


心 图 翅 国 改 
输入 数据 输入 数据 
(a) 传统 卷 积 计算 (b) 扩张 卷 积 计算 


图 9-3 ”传统 卷 积 计 算 和 扩张 卷 积 计算 对 比 
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9.1.3 激活 层 


激活 层 是 使 用 激活 函数 对 输入 数据 做 处 理 的 一 种 非 线 性 层 。 卷 积 等 计算 本 质 上 是 对 输入 数据 
的 线性 变换 ,为 了 实现 神经 网 络 的 非 线 性 建 模 能 力 ， 激活 层 都 采用 非 线 性 函数 。 常 用 的 激活 函数 
有 sigmoid、tanh、ReLU 等 ， 它 们 的 特性 对 比如 表 9-1 所 示 。 


表 9-1 常用 的 几 种 激活 函数 特性 对 比 


激活 函数 公式 输出 范围 优 点 缺 点 
sigmoid cl [0,1] 可 直接 用 在 输出 层 (1) 神经 元 输出 非 0 均值 ， 不易 
1l+e™ 于 模型 训练 (2) 容易 饱和 ， 造 
成 后 向 传播 时 “梯度 消失 ”; (3) 

前 向 和 后 向 计算 复杂 
tanh re [11] 神经 元 输出 为 0 均值 ， 易 于 模型 训练 (1) 容易 饱和 ， 造 成 后 向 传播 时 

7 erte™ “梯度 消失 ”; 02) 计算 复杂 

ReLU y= max(0, x) [0,+%) (1) 具有 单 侧 抑制 性 ， 神 经 元 兴奋 域 宽 ， ”容易 出 现 参 数 为 负 、 梯 度 为 0 


激活 具有 稀 琉 性 ， 与 脑 神经 元 激活 频率 ”的 情况 而 导致 神经 元 “坏死 ”， 
函数 具有 相似 之 处 ; (2) 梯度 不 容易 饱 ”无 法 再 激活 
和 ; (3) 计算 和 求 导 速度 快 


除 上 述 几 种 常用 的 激活 函数 之 外 , 还 有 其 他 激活 函数 。 比 如 为 了 避免 ReLU 激活 函数 的 缺点 ， 
有 人 提出 了 Parametric ReLU 激活 函数 。 它 与 ReLU 的 区 别 在 于 : 当 输 入 为 负数 时 ， 输 出 与 输入 
仍然 成 线性 关系 , 但 是 线性 比例 值 可 以 在 训练 过 程 中 不 断 调整 。 这 使 得 输入 为 负数 时 ,神经 元 也 
可 以 被 激活 。 


9.1.4” 池 化 层 


池 化 层 是 用 于 缩小 数据 规模 的 一 种 非 线 性 计算 层 。 为 了 降低 特征 维度 ， 我 们 需要 对 输入 
数据 进行 采样 ， 具 体 做 法 是 在 一 个 或 者 多 个 卷 积 层 后 增加 一 个 池 化 层 。 池 化 层 由 以 下 三 个 参数 
决定 : 

口 池 化 类 型 ， 一般 有 最 大 池 化 和 平均 池 化 两 种 ; 
口 池 化 核 的 大 小 ; 
口 池 化 核 的 滑动 间隔 s。 

9-4 给 出 了 一 种 上 = 2, s = 2 的 池 化 层 示例 。 其 中 ，2x2 大 小 的 池 化 窗口 以 两 个 单位 距离 在 
输入 数据 上 滑动 。 在 池 化 层 中 ， 如 果 采 用 最 大 池 化 类 型 ， 则 输出 为 输入 窗口 内 四 个 值 的 最 大 值 ; 
如 果 采 用 平均 池 化 类 型 ， 则 输出 为 输入 窗口 内 四 个 值 的 平均 值 。 
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图 9-4” 池 化 层 示意 图 


9.1.5 ”全 连接 层 


全 连接 层 是 一 种 对 输入 数据 直接 做 线性 变换 的 线性 计算 层 。 它 是 神经 网 络 中 最 常用 的 一 种 
层 , 用 于 学 习 输 出 数据 和 输入 数据 之 间 的 线性 变换 关系 。 全 连接 层 可 作为 特征 提取 层 使 用 , 在 学 
习 特 征 的 同时 实现 特征 融合 ; 也 可 作为 最 终 的 分 类 层 使 用 , 其 输出 神经 元 的 值 代表 每 个 输出 类 别 
的 概率 。 基 于 CNN 的 分 类 模型 的 最 后 一 层 或 者 儿 层 都 采用 全 连接 层 。 如 图 9-5 所 示 ， 每 个 输出 
神经 元 都 与 每 个 输入 神经 元 相连 接 , 并 且 连 接 权 重 可 能 不 相同 。 输出 神经 元 的 值 为 输入 神经 元 值 
的 加 权 和 。 在 CNN 中 ， 全 连接 层 与 卷 积 层 相 比 ， 计 算 速 度 比 较 快 。 但 是 ， 全 连接 层 内 部 是 稠密 
连接 ， 使 得 参数 量 很 大 ， 这 会 导致 分 布 式 训 练 时 通信 开销 比较 大 。CNN 模型 的 前 面 几 层 之 所 以 
不 用 全 连接 层 而 用 卷 积 层 ， 很 重要 的 一 个 原因 就 是 全 连接 层 会 因 参 数 太 多 而 造成 无 法 训练 。 


图 9-5 全 连接 层 示意 图 

相 比 于 卷 积 层 , 全 连接 层 的 限制 在 于 它 的 输入 神经 元 个 数 是 固定 的 。 如 果 我 们 使 用 带 有 全 连 
接 层 的 CNN 模型 ， 那 么 其 输入 数据 的 尺寸 必须 是 固定 的 。CNN 模型 并 非 一 定 需 要 全 连接 层 ， 比 
如 在 用 于 图 像 分 割 任务 的 FCN ( Fully Convolutional Network, 全 卷 积 网 络 ) 中 , 就 没有 全 连接 层 。 


9.1.6 ”Dropout 层 


Dropout 层 是 一 种 正则 化 层 。 正 是 因为 全 连接 层 参数 量 非 常 庞 大 ( 占据 了 CNN 模型 参数 量 的 
80% ~ 90% ), 发 后 过 拟 合 问题 的 风险 比较 高 , 所 以 我 们 通常 需要 一 些 正 则 化 方法 训练 带 有 全 连接 
层 的 CNN 模型 。Dropout 是 常用 的 一 种 正则 化 方法 。 如 图 9-6 所 示 ， 在 每 次 迭代 训练 时 ,将 神经 
元 以 一 定 的 概率 值 p 暂时 随机 丢弃 ， 即 在 当前 迭代 中 不 参与 训练 。 这样, 每 次 训练 时 的 模型 都 由 
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不 同 的 参数 组 合 而 成 。 神 经 元 的 随机 组 合 减少 了 神经 元 之 间 可 能 形成 的 共同 依赖 。Droponut 方法 
使 得 最 终 训 练 的 神经 网 络 由 多 个 Dropout 之 后 的 子 模型 组 成 。 最 后 预测 的 时 候 ， 所 有 神经 元 都 一 
参与 计算 ， 相 当 于 集成 了 之 前 训练 的 所 有 子 模 型 ， 这 有 助 于 提升 模型 的 泛 化 能 力 。 


输入 


(a) 应 用 Dropout 前 的 全 连接 层 (b) 应 用 Dropout 之 后 的 全 连接 层 
图 9-6 ”Dropout 方 法 示意 图 


9.1.7 BN 层 


在 训练 CNN 模型 时 ， 模 型 参数 随 迭 代 次 数 的 增加 而 不 断 变 化 。 对 于 每 一 层 而 言 ， 其 输入 数 
据 的 分 布 也 随 迭 代 次 数 的 不 同 而 不 同 。 因此 ,模型 参数 要 不 断 去 适应 这 种 随 迭 代 变 化 的 输入 分 布 ， 
这 会 导致 模型 参数 学 习 很 慢 。 如 果 能 使 得 每 个 卷 积 层 输 入 的 分 布 固定 一 一 比如 固定 为 均值 为 0、 
方差 为 1 的 高 斯 分 布 , 那么 模型 参数 的 学 习 将 会 更 容易 。 这 种 将 每 层 输入 的 分 布 做 归 一 化 的 操作 
叫 作 批 归 一 化 ， 相 应 的 层 为 BN ( Batch Normalization， 批 归 一 化 或 批 标准 化 ) 层 。 

一 般 而 言 , CNN 模型 在 卷 积 或 全 连接 运算 完成 之 后 进行 BN 运算 , 然后 再 激活 。 对 于 卷 积 层 ， 
BN 层 的 具体 计算 过 程 为 : 假设 某 输 出 特征 图 为 0(i, j, h, w)， 其 中 i= 1, 2,…, NN 为 该 样本 在 本 次 
和 迭代 中 所 用 到 的 训练 样本 集合 (mini-batch ) 中 的 索引 号 ,j= 1,2,…, C 为 该 特征 图 所 对 应 的 通道 索 


引号 。 对 于 通道 j, 我 们 可 以 求 得 在 mini-batch 维度 上 所 有 特征 图 的 平均 值 w( 放 = 2 光 


Ww \ 1 N H Ww 2 t 

> ,10(i,j,h,w) 和 方差 值 c(7) = ee (OGi,j,h,w) 一 (7)) ,然后 利用 1(j) 和 og()) 
对 每 个 特征 图 上 的 特征 点 进行 归 一 化 , 并 将 归 一 化 后 的 值 再 进行 线性 变换 ( 变换 系数 通过 训练 得 
到 )， 得 到 BN 层 最 后 的 输出 值 。 全 连接 层 的 BN 运算 也 是 类 似 的 ， 只 要 将 上 述 有 万 和 丈 的 维度 变 
为 1 即 可 。 

加 入 BN 层 之 后 ,训练 数据 在 样本 空间 中 的 分 布 更 加 均匀 和 固定 ,所 以 每 个 卷 积 或 全 连接 层 
所 形成 的 高 维 切面 对 于 数据 的 切 分 更 加 容易 ， 这 使 得 模型 参数 的 学 习 也 变 得 更 容易 。 因 此 ，BN 
层 可 以 显著 加 速 CNN 模型 训练 的 收敛 速度 。 例如， 在 使 用 BN 层 之 后 ，GoogleNet ( Google 提出 
的 一 种 经 典 模型 ) 的 训练 速度 提升 了 10 倍 以 上 。 


9.1.8 常用 的 CNN 图 像 分 类 模型 
CNN 模型 最 先 应 用 于 图 像 识别 。 这 类 模型 通常 由 很 多 层 堆 芭 而 成 ， 例 如 多 个 连续 堆 秋 的 卷 
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积 层 和 激活 层 构 成 的 网 络 可 以 学 习 由 低级 到 高 级 逐渐 变化 的 层次 化 图 像 特 生 


Inception 、ResNet 等 都 是 经 典 的 CNN 模型 ， 它 们 各 自 都 有 不 同 的 版 本 。 


AlexNet 最 先 在 ImageNet 图 像 分 类 竞赛 中 获得 突破 ， 其 模型 架构 如 
5 个 卷 积 层 和 3 个 全 连接 层 组 成 。TensorFlow-Slim (一 个 


模型 ( AlexNet v1， 参见 图 9-7a ) 主要 


FE。AlexNet、VGG、 


图 9-7 所 示 。 原 始 的 AlexNet 


用 于 CNN 模型 训练 和 推理 的 Python 库 ) 还 提供 了 v2 版 本 的 AlexNet， 如 图 9-7b 所 示 。AlexNet v2 


去 掉 了 LocalNorm 层 ( 现在 的 CNN 模型 基本 上 都 不 加 这 一 层 ), 并 在 最 后 几 层 中 使 用 卷 积 层 代替 
全 连接 层 ， 但 是 模型 的 计算 量 和 参数 量 基 本 没有 变化 。 


Output Label(BX1000) 


Input Image(BX227X227X3) 


(a) AlexNet v1， 采 用 卷 积 + 全 连接 方式 


OutputLabel(BX1000) 


Input Image (B X227X 227X3) 


(b) AlexNet v2， 采 用 全 卷 积 方式 


图 9-7 AlexNet 模 型 架构 


牛津 大 学 的 研究 人 员 于 2014 年 提出 了 VGG 模型 , 旨 在 提供 比 AlexNet 更 深 的 模型 以 提升 图 


像 分 类 精度 。 他 们 发 现 大 量 采 用 3x3 卷 积 核 的 卷 积 层 已 经 能 够 很 好 地 提取 图 像 特征 。VGG 模型 


分 很 多 种 ,常用 的 是 VGG16 和 VGG19 模型, 分别 如 图 9-8a 和 图 9-8b 所 示 。VGG 模型 在 多 层 卷 


积 之 后 采用 了 三 个 连续 的 全 连接 层 来 融合 多 通道 特 条 
如 ，VGG16 模 型 的 规模 在 500MB 以 上 ， 这 给 分 布 式 训练 和 端 侧 部 署 都 带 来 不 小 的 挑战 。 


FE 图 ， 这 使 得 模型 参数 量 增多 、 模 型 变 大 。 例 
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图 9-8 VGG 模型 架构 


为 了 更 好 地 融合 多 尺度 模型 特征 , 同时 避免 采用 过 多 的 全 连接 层 , Google 公司 的 研究 团队 提 
出 了 Inception 模型 及 其 变种 。Inception 系列 模型 一 共和 包括 四 种 版 本 ， 分 别 如 图 9-9a、 图 9-10a、 
图 9-11a 和 图 9-12a 所 示 。Inception v1 采用 Inception modulel ( 详 见 图 9-9b ) 提取 并 融合 不 同 尺 
度 下 的 特征 ， 并 且 在 3x3 和 5x5 卷 积 核 之 前 采用 1x1 的 卷 积 核 降 维 以 减少 计算 量 。Inception v2 
则 改 用 Inception module2( 详 见 图 9-10b ), 与 Inception modulel 相 比 ，Inception module2 将 5x5 
卷 积 变 为 两 个 3x3 卷 积 ， 降 低 了 计算 量 。 
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(a) Inception v1 模型 架构 (b) Inception module1 结 构 


图 9-9 ”Inception v1 模型 架构 及 其 关键 模块 
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(a) Inception v2 模型 架构 


图 9-10 
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(b) Inception module2 结 构 


Inception v2 模型 架构 及 其 关键 模块 


Inception v3 采用 与 mception module2 相似 的 Inception module3 作为 初始 的 Inception 模块 。 


Inception module3 的 输出 特征 经 Inception module4 降 维 后 ， 


再 经 过 Inception module5 做 进一步 特 


征 抽取 和 融合 。Inception module5 将 nxn 的 卷 积 运算 转换 为 1xn 和 nx1 的 连续 卷 积 ， 可 以 进一步 


降低 计算 量 。Inception module6 与 Inception module4 类 似 


与 Inception module5 类 似 , 但 是 可 以 融合 更 多 通道 的 卷 积 结果 ， 提升 高 维 的 特征 表达 能 


， 也 具有 降 维 作用 。Inception module7 


， 一般 


用 于 CNN 的 最 后 儿 层 中 ,Inception v4 相 比 Inception v3 ,网络 深度 更 深 , 在 Inception v4 中 ,Inception 
module8 用 于 模型 的 初期 特征 提取 和 多 尺度 融合 ,与 Inception vl 和 Inception v2 不同 ,Inception v3 


和 Inception v4 均 要 求 输入 的 图 像 大 小 为 299x299。 
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(a) Inception v3 模型 架构 


图 9-11 Inception v3 模型 架构 及 
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(b) Inception module3 结 构 


其 关键 模块 
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(e) Inception module6 结 构 (了 f) Inception module7 结 构 


图 9-11 ( 续 ) 
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从 AlexNet 到 VGG 和 Inception 模型 ， 模 型 深度 一 直 在 增长 ， 精 度 也 在 不 断 提 高 。 但 是 当 层 
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(a) Inception v4 模型 架构 


输出 数据 


Conv (3X3), 
BN, ReLU 


Conv (3X3), 
BN, ReLU 
Conv (1X 1), 
BN, ReLU 


Conv (7X1), 
BN, ReLU 


Conv (1 X7), 
BN, ReLU 


Conv (1X1), 
BN, ReLU 


输入 数据 


(b) Inception module8 结 构 


图 9-12 ”Inception v4 模型 架构 及 其 关键 模块 


数 继续 增加 的 时 候 ， 训练 误差 和 验证 误差 反而 都 会 增加 ,精度 开始 下 降 。 其 问题 不 是 过 拟 合 ， 而 


组 ResNet module 处 理 (每 组 分 别 包 含有 Ni， 


是 难以 找到 更 好 的 训练 更 深层 网 络 的 方法 。 为 了 解决 这 个 问题 ，2015 年 微软 亚洲 研究 院 的 何人 已 


明 等 人 提出 了 ResNet。 图 9-13a 给 出 了 该 模型 的 架构 。 其 中 ， 输 入 数据 经 过 一 层 卷 积 之 后 通过 4 
,NM 个 ResNetmodule )， 每 经 过 一 组 module 后 


特征 图 分 辩 率 降低 一 次 。ResNet 的 一 个 基本 假设 是 : 直接 使 用 多 个 卷 积 层 学 习 一 个 非 线性 映射 比 
较 困难 ,但 是 让 其 学 习 输 入 和 输出 之 间 的 残 差 则 比较 容易 。ResNet module 用 于 学 习 这 个 残 差 ， 

每 个 ResNet module 的 输出 数据 都 由 输入 数据 和 残 差 共同 构成 。 图 9-13b、 图 9-13c 和 图 9-13d 展 
示 了 三 种 不 同 的 ResNet module。 由 于 module 中 的 输入 和 输出 之 间 出 现 了 “ 直 连 通道 "， 梯 度 传 


模型 可 以 达到 的 深度 也 远 超过 前 面 提 到 的 AlexNet、VGG 和 Inception 模型 。 

根据 层 数 的 不 同 ，ResNet 有 不 同 的 版 本 ， 其 中 常用 的 有 ResNet-18、ResNet-34、ResNet-50、 
ResNet-101 和 ResNet-152。 对 于 ResNet-18 和 ResNet-34， 其 ResNet module 如 图 9-13b 所 示 ， 中 
间 包 含 2 个 3x3 的 卷 积 运算 ,4 组 ResNet module 中 卷 积 计 算 的 输出 通道 数 依次 为 64、128、256、 
512。ResNet-50、ResNet-101 和 ResNet-152 中 的 ResNet module 如 图 9-13c 所 示 。 为 了 减少 计算 


量 , 该 ResNet module 先 用 1x1 的 卷 积 降 维 ( 通道 数 降低 ) 后 再 做 3x3 卷 积 ， 最 后 月 
F 通 道 数 。 在 ResNet v2 中 ，ResNet module 如 图 9-13d 所 示 。 为 了 使 梯度 从 深层 到 浅 层 传 


提升 特 生 


播 会 更 容易 ， 从 而 有 利于 构建 更 深 的 模型 。 大 量 的 实验 证 明了 这 种 学 习 方式 的 有 效 性 。ResNet 


日 1x1 的 卷 积 


播 过 程 中 不 发 生 梯度 弥散 和 梯度 爆炸 现象 ， 该 ResNet module 的 主线 路 上 不 添加 ReLU 模块 。 
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(b) ResNet module 结 构 
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(c) 引入 降 维 后 的 ResNet module 结 构 (d) ResNet v2 中 改进 后 的 ResNet module 结 构 


图 9-13 ”ResNet 模 型 架构 及 其 关键 模块 


在 Inception 模型 和 ResNet 模 型 之 后 ，Google 又 提出 Inception-ResNet 系列 模型 ， 将 ResNet 
中 的 残 差 模块 (ResNet module ) 设计 和 Inception 架构 相 融 合 以 充分 利用 彼此 优点 。 表 9-2 中 总 
结 了 以 上 几 种 常用 的 CNN 分 类 模型 。 


表 9-2 常用 的 分 类 模型 列表 


网 络 名 称 主要 设计 思想 计算 复杂 度 模型 大 小 (MB) 
AlexNet 首次 采用 多 层 深度 CNN 模型 做 图 像 识 别 ; 采用 ReLU 避免 梯度 低 ~240 
消失 ; 提出 Dropout 技术 防止 模型 过 拟 合 
VGG 为 了 降低 计算 量 ， 全 部 采用 3x3 大 小 的 卷 积 核 ， 通 过 连续 的 3x3 高 一 950 
卷 积 模拟 5x5 或 7x7 等 更 大 的 卷 积 核 
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( 续 ) 
网 络 名 称 主要 设计 思想 计算 复杂 度 ”模型 大 小 (MB) 

Inception( vl~v4 ) ”为 了 融合 多 种 感受 时 大 小 下 的 特征 图 , 提出 了 Inception 模块 ， 该 中 50~163 

模块 包含 了 1x1、3x3 和 5x5 的 卷 积 层 ， 并 在 3x3 和 5x5 卷 积 前 

采用 1x1 卷 积 降低 特征 通道 数 ， 减 少 计算 量 
ResNet 提出 了 残 差 模块 , 通过 用 多 层 卷 积 去 学 习 输 入 和 输出 之 间 的 残 差 ， 较 高 90~214 

而 非 直接 学 习 输 入 和 输出 之 间 的 映射 , 使 得 深层 网 络 更 容易 训练 。 

当 深 度 大 于 50 之后， 在 3x3 卷 积 运算 前 采用 1x1 降低 计算 量 
Inception-ResNet 在 Inception 模 块 中 引入 输入 和 输出 之 间 的 直 连 通路 , 即 采用 残 差 较 高 一 200 

训练 方法 ， 将 残 差 模块 的 设计 思想 融入 到 Inception 架构 中 


除了 上 面 介绍 的 模型 外 ， 近 年 来 一 些 旨 在 提升 计算 效率 和 精度 的 新 兴 CNN 分 类 模型 也 不 断 
涌现 ， 例 如 ResNeXt、DenseNet、DPN ( Dual Path Network ) 等 。 在 提升 精度 的 同时 ， 这 些 模 型 
也 在 考虑 尽 可 能 降低 计算 量 。 另 外 ,现在 业界 也 倾向 于 采用 强化 学 习 、 进 化 算法 等 方法 自动 探索 
和 设计 最 优 的 CNN 分 类 模型 架构 。CNN 分 类 模型 中 除去 分 类 层 ( Softmax 层 ) 以 外 的 部 分 通常 
作为 通用 的 特征 提取 器 ， 可 用 于 计算 机 视觉 领域 中 的 其 他 任务 ( 如 检测 、 分 割 等 )。 


9.2 TensorFlow-Slim 


上 市 讲述 了 CNN 中 常见 的 层 和 典型 的 模型 结构 ， 但 这 仅 停留 在 理论 层面 ， 我 们 需要 具体 实 
践 才能 更 深入 地 理解 和 运用 这 一 模型 。 同 时 ,对 于 一 个 实际 的 应 用 , 仅 有 模型 本 身 是 不 够 的 , 我 
们 还 需要 数据 读 取 和 预 处 理 、 模 型 部 署 管理 、 优 化 带 和 损失 函数 ( 用 于 训练 )、 评 佑 函数 ( 用 于 
推理 ) 等 模块 。TensorFlow-Slim 作为 一 套 深度 学 习 高 级 抽象 库 ， 旨 在 简化 上 述 程序 开发 流程 。 
本 节 讲 解 如 何 使 用 TensorFlow-Slim 实现 CNN 模型 从 训练 到 推理 的 完整 流程 。 


9.2.1 TensorFlow-Slim 总 体 结构 


由 于 CNN 等 深度 学 习 模 型 往往 非常 复杂 , 使 用 TensorFlow 原生 API 编写 其 训练 和 推理 逻辑 
的 代码 量 会 很 大 。TensorFlow-Slim 库 的 推出 正 是 为 了 方便 用 户 快 速 定义 和 训练 自己 的 模型 ， 并 
利用 训练 好 的 模型 做 推理 。TensorFlow-Slim 是 一 个 Python 库 ， 它 提供 了 包括 数据 集 处 理 、 模 型 
定义 、 模 型 训练 和 推理 在 内 的 诸多 功能 。 需 要 注意 的 是 ， 虽 然 TensorFlow-Slim 最 初 面向 的 是 图 
像 分 类 应 用 ， 但 是 我 们 也 可 以 将 这 套 框架 应 用 于 其 他 模型 和 数据 集 ， 从 而 解决 其 他 问题 。 比 如 ， 
我 们 可 以 自 定义 一 个 CNN 和 RNN 混合 的 模型 用 于 光学 字符 识别 ( Optical Character Recognition ， 
OCR )， 然 后 复 用 TensorFlow-Slim 框架 做 模型 训练 和 推理 。 

TensorFlow-Slim 的 代码 托管 于 TensorFlow 社区 models 项 目的 research/slim 目录 ， 以 及 
tensorflow 项 目的 tensorflow/contrib/slim 目录 。 如 图 9-14 所 示 ，TensorFlow-Slim 的 主要 组 件 包 括 
datasets、data、preprocessing 、deployment 和 nets 等 Python 包 ( 大 部 分 位 于 models 项 目 
的 research/slim 目录 下 )， 以 及 learning、evaluation、queues 和 model_analyzer 等 Python 
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模块 (位 于 tensorflow 项 目的 tensorflow/contrib/slim 目录 下 )。 这 些 组 件 分 别提 供 了 数据 读 取 和 
处 理 、 模 型 定义 、 模 型 训练 和 模型 推理 等 功能 。TensorFlow-Slim 依赖 的 其 他 Python 包 主 要 有 
layers、ops、losses、metircs 等 。 这 些 组 件 定 义 了 模型 用 到 的 层 、 算 子 、 损 失 函 数 和 度量 指 
标 等 。 下 面 我 们 分 别 介 绍 TensorFlow-Slim 中 的 几 个 主要 组 件 。 


TensorFlow-Slim 


depioyment 


layers losses metrics 


图 9-14 ”TensorFlow-Slim 的 主要 组 件 及 其 依赖 组 件 


9.2.2 datasets 包 和 data 包 


datasets 包 提 供 了 读 取 输入 数据 的 统一 接口 , 它 支持 ImageNet、MNIST、CIFAR-10、Flowers 
这 四 种 标准 数据 集 的 读 取 。 因 为 每 个 数据 集 的 元 信息 以 及 读 取 方式 有 所 不 同 ， 所 以 datasets 包 
针对 每 个 数据 集 提 供 了 一 个 对 应 的 模块 进行 处 理 。 用 户 也 可 以 在 datasets 包 中 添加 模块 以 支持 
新 的 数据 集 。 


dataset_factory 模块 用 于 管理 目前 支持 的 数据 集 , 并 提供 统一 的 获取 数据 的 接口 。 该 模块 9 
的 get_dataset 方法 根据 用 户 输入 的 数据 集 名 name 、 数 据 类 型 名 split_name ( 取 值 为 train 
或 test )、 所 在 目录 dataset_dir 、 数 据 集 文件 命名 规则 file_pattern 和 数据 集 读 取 器 reader， 
调用 相应 数据 集 的 get_split 方法 ， 然 后 返回 一 个 TensorFlow-Slim 所 定义 的 数据 集 对 象 : 


from datasets import cifar16 
from datasets import flowers 
from datasets import imagenet 
from datasets import mnist 
# 数据 集 map， 当 前 支持 以 下 这 四 种 ， 每 种 数据 集 都 对 应 一 个 单独 的 模块 ， 部 有 get_split 方法 
datasets map = { 
"cifar16': cifar16， 
'flowers': flowers, 
'imagenet': imagenet, 
'mnist': mnist, 


} 


def get dataset(name, split name, dataset dir, file pattern=None, reader=None): 
if name not in datasets_ map: 
raise ValueError('Name of dataset unknown %s' % name) 
return datasets map[name].get_split( 
split_name, 
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dataset_dir， 
file_pattern, 
reader) 


data 包 用 于 数据 的 多 线程 读 取 、 解 码 等 ,并 为 datasets 包 提 供 封装 好 的 Dataset 类 。 其 代 
码 位 于 tensorflow/contrib/slim/python/slim/data 目录 下 。 data 包 中 主要 组 件 所 对 应 的 UML 类 图 如 


图 9-15 所 示 。 


+_items_to_tensors : dict 
+ _num samples: int 

+ init r---- 
+ list_items 


+ data Sources : list 

+ reader : reader 

+ decoder : datadecoder 

+ num samples: int 

+items to_discriptions : dict 


7 get + dict _ 


+num samples 
+ _validate items 


DatasetDataProvider 
1 


ParallelReader 


+ _readers : list 
+_common queue : Queues 


+ init 


TFExample Decoder 


+ _keys to _features: dict 
+ _items to_handlers : dict 
+_init 

+ list_items 

+ decode 


V 


+ list_items 
+ decode 


H num readers 

+ common queue 

+ read 

+num records_produced 

+num work_units_completed 


图 9-15 data 包 主 要 组 件 的 UML 类 图 


其 中 , DataProvider 类 维护 了 输入 数据 包含 的 关键 字 ( 在 代码 中 用 item 表示 ) 及 其 对 应 张 
量 。 比 如 ， 对 于 ImageNet 分 类 问题 ， 关 键 字 为 image 和 label ， 对 应 的 张 量 分 别 用 于 存放 图 像 


数据 和 


图 像 标 签 。DatasetDatapProvider 类 继承 于 DataProvider 类 ,在 DatasetDataProvider 


对 象 初始 化 时 , ParallelReader 类 的 parallel_read 方法 被 调用 , 以 读 取 dataset .data_sources 
间 定 的 数据 源 ， 得 到 序列 化 的 数据 。 然 后 ，TFExampleDecoder 类 的 decode 方法 被 调用 ， 对 该 
数据 进行 反 序列 化 。 

tfexample_decoder 模块 还 定义 了 ItemHandler 类 及 其 子 类 ,如 BoundingBox、Image、 


Tensor、SparseTensor 和 ItemHandlerCallback。 这 些 类 主要 维护 了 一 些 关键 字 及 其 对 应 的 序 
列 化 数据 ， 相 关 的 UML 类 图 如 图 9-16 所 示 。 这 些 类 在 TFExampleDecoder 的 decode 方法 中 会 


被 用 到 


。 以 Image 类 为 例 ， 该 类 维护 了 两 个 重要 的 关键 字 _image_key 和 _ format_key， 他 


们 分 别 对 应 序列 化 之 后 的 图 像 像素 数据 image_buffer 和 图 像 格 式 字 符 串 image_format( 如 jpg、 


png 等 
的 数据 


)。 此 外 ，Image 类 还 提供 了 _decode 方法 ， 用 于 解压 image_buffer 和 image_format 中 


[e) 
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BoundingBox vy + _tensor key : string 


“stri 十 _Shape keys : list 
十 
十 1 ItemHandler +_shape : tf.TensorShape 
+_full_ keys :list 3 keys :list +_default_ value: int 
+ init a + nt 
a 十 keys 十 tensors to_ltem 
DSO Oom +ftensors_to_item 


+_indices key: string 
ts ee 

+ 村 -TensorShape 于 十 _shape : tf.TensorShape 
+_channels: int +_densify : bool 


+ init +_default_value: int 


+ tensors to_item + init + init 
+_decode +tensors to litem +tensors to item 


图 9-16 ItemHandler 及 其 子 类 的 UML 类 图 ( 仅 画 出 主要 的 类 ) 


在 实际 使 用 中 , 用 户 首先 根据 数据 集 名 、 数据 类 型 名 、 数 据 集 目录 等 参数 新 建 Dataset 对 象 ， 
然后 再 建立 一 个 DatasetDataProvider 对 象 ,用 一 个 或 多 个 Reader 对 象 读 取 训练 数据 ,并 用 Decoder 
对 象 将 读 到 的 数据 解码 为 可 被 训练 代码 处 理 的 张 量 〈 比如 图 像 数据 及 其 标签 )。 在 训练 过 程 中 ， 
我 们 通常 需要 将 数据 读 取 和 模型 计算 并 行 化 。 在 计算 当前 迭代 的 时 候 , 下 一 次 迭代 的 数据 已 经 开 

台 被 加 载 到 内 存 中 ， 以 保证 数据 读 取 等 IO 操作 不 会 造成 瓶颈 。data 包 中 的 prefetch_queue 模 
块 提供 数据 预 取 功能 ， 该 模块 的 prefetch_queue 方法 用 于 建立 一 个 先进 先 出 队列 (FIFOQueue )。 
该 队列 可 看 作 一 个 缓冲 区 ， 它 以 批 大 小 为 单位 不 断 准 备 后 续 将 训练 的 数据 。 


9.2.3 ” preprocessing 包 


该 包 提 供 多 种 数据 预 处 理 函 数 。 在 深度 学 习 模 型 用 于 训练 和 推理 时 , 我 们 通常 需要 对 输入 数 
据 ( 如 图 像 等 ) 进行 预 处 理 ， 比 如 调整 图 像 输 入 尺寸 、 截 取 部 分 图 像 等 。preprocessing 包 提 供 
了 对 CIFARNet、Inception、LeNet、VGG 这 四 类 模型 输入 数据 的 预 处 理 功能 。 以 Inception 类 模 
型 为 例 ，inception_preprocessing 模块 提供 了 用 于 图 像 色 彩 调 整 的 distort_color 方法 ,该 
方法 可 以 以 不 同 顺序 分 别 调节 图 像 的 色调 、 饱 和 度 、 亮 度 和 对 比 度 。 此 外 ,该 模块 还 提供 了 用 于 
图 像 候 选 框 调整 ( 主要 用 于 物体 检测 应 用 ) 的 distorted_bounding_box_crop 方法 ,可 以 将 人 
工 在 图 像 中 标注 的 候选 框 在 一 定 尺 寸 、 长 宽 比 和 重 释 度 范围 内 做 畸变 。 


9.2.4 deployment 包 


该 包 提 供用 于 模型 训练 态 和 推理 态 部 署 的 方法 库 ， 具 有 model_deploy 模块 ， 该 模块 定义 了 
三 个 主要 的 数据 结构 : clone、DeploymentConfig 和 DeployedModel。 

当 我 们 用 多 个 GPU (或 CPU ) 等 计算 设备 做 数据 并 行 训 练 时 ， 每 个 计算 设备 都 被 部 署 一 套 
相同 的 模型 (或 数据 流 图 )。model_deploy 模块 抽象 出 一 个 namedtuple 类 型 的 数据 结构 
Clone ， 使 得 每 个 计算 设备 上 的 模型 对 应 一 个 Clone 对 象 。Clone 的 定义 为 : 
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Clone = collections.namedtuple('Clone', 

[ "outputs'，# 该 Clone 所 对 应 的 深度 学 习 模 型 的 输出 张 量 
'scope', # 该 Clone 的 作用 域 
'device'， # 该 Clone 的 设备 

]) 

它 包含 三 个 属性 : outputs、scope 和 device。 其 中 ，outputs 表示 CNN 模型 Softmax 层 
(或 其 他 类 型 的 输出 层 ) 的 输出 张 量 ， 它 代表 模型 的 预测 值 ; scope 表示 定义 该 clone 的 作用 域 
名 称 ， 格 式 为 clone_i， 其 中 i (i=0,1,…,N-1) 是 当前 节点 内 GPU (或 CPU ) 的 编号 ，N 为 当 
前 节点 内 计算 设备 的 个 数 ; device 表示 该 模型 训练 时 所 在 设备 的 类 型 ， 当 前 TensorFlow 仅 支 持 
GPU 和 CPU 两 种 类 型 的 设备 。 


DeploymentConfig 用 于 对 模型 训练 态 部 署 时 的 参数 做 配置 ， 这 些 参数 包括 : Clone 对 象 的 
个 数 (num_clones )、 是 否 在 CPU 上 部 署 模型 (clone_on_cpu )、 计 算 节 点 上 模型 副本 的 ID 
(replica_id )、 计算 集群 中 的 模型 副本 总 数 ( num_replicas )、 参 数 服 务 器 的 数量 ( num_ps_tasks )、 
参数 服务 器 所 用 的 设备 ( ps_device ), 以 及 计算 节点 所 用 的 设备 ( worker_device )- model_deploy 
模块 提供 了 create_clones 方法 ， 该 方法 根据 一 个 DeploymentConfig 对 象 和 模型 孔 数 的 定义 
创建 指定 数目 的 Clone 对 象 。 


DeployedModel 是 一 个 更 高 层次 的 抽象 , 代表 一 个 部 署 好 的 模型 ,可 以 帮助 我 们 管理 节点 内 
的 多 个 Clone 对 象 。 它 也 是 一 个 namedtuple 类 型 ， 其 定义 为 : 
DeployedModel = collections.namedtuple('DeployedModel', 
['train_op', # 单 步 训练 操作 
'summary_op'， # 记录 变量 变化 的 操作 
'total_loss'， # 所 有 Clone 对 象 上 模型 损失 值 的 总 和 
"Clones'， # 多 个 Clone 对 象 的 集合 


]) 

DeployedModel 类 有 四 个 属性 : train op、summary_op、total loss 和 clones。 其 中 ， 
train_op 表示 单 步 训练 操作 ，summary_op 是 用 于 记录 变量 变化 的 操作 。 在 模型 训练 时 ， 
summary_op 能 够 记录 模型 参数 、 梯 度 和 损失 值 等 ， 以 便 使 用 TensorBoard 查看 。total_loss 表 
示 所 有 Clone 对 象 对 应 的 模型 损失 值 (包括 正则 项 损失 值 在 内 ) 的 总 和 。clones 表示 一 个 
DeployedModel 对 象 所 管理 的 多 个 Clone 对 象 的 集合 。 


model_deploy 模块 的 核心 方法 为 deploy。 它 的 主要 输入 参数 为 DeploymentConfig 对 象 、 
模型 饵 数 model fn， 以 及 其 他 可 选 参数 ( 如 优化 吉 optimizer 等 )。 该 方法 用 于 计算 多 个 Clone 
对 象 各 自 的 单 步 训练 操作 、 损 失 值 等 ， 并 给 用 户 提供 一 个 DeployedModel 对 象 。 首 先 ， 该 方法 
根据 所 需 部 署 的 Clone 个 数 ， 在 每 个 设备 上 建立 一 个 Clone 对象。 如 果 输 入 参数 已 指定 优化 器 
optimizer， 则 global_step 被 创建 ， 用 于 表示 所 有 参与 计算 的 worker 的 同步 标记 ( 详 见 5.2 
节 )。 随 后 ， 通 过 优化 器 得 到 模型 参数 的 梯度 ， 并 将 所 有 梯度 更 新 应 用 到 相应 的 模型 参数 上 。 最 
后 ， 得 到 当前 适 代 中 所 有 更 新 操作 聚 合 后 的 操作 train_op。 相 应 代码 为 : 


if optimizer: 
with tf.device(config.variables device()): 
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# 创建 多 个 worker 并 行 计算 时 的 同步 标记 global_step 
global_step = slim.get or_create global_ step() 
# 调用 model_deploy 模块 中 的 optimize_clones 方法 ， 得 到 所 有 Clone 的 损失 函数 值 的 综合 
# total loss 和 clones_gradients。clones_gradients 的 数据 格式 为 : 
# [(grad_1,var_1), (grad 2,var 2),..., 
# (grad_i,var i),...,(grad_N,var_N)]， 其 中 Var_i 表示 第 工 层 的 参数 (weights 或 biases 等 )， 
# grad i 表示 var_i 所 对 应 的 梯度 ，grad_i 是 所 有 Clone 上 计算 得 到 的 梯度 的 总 和 
total_loss, clones_ gradients = optimize clones(clones, optimizer) 
if clones_gradients : 

if summarize_gradients : 

summaries |= set(_add_gradients_summaries(cLlones_gradients)) 

# 调用 优化 器 的 apply_gradients 方法 ， 得 到 grad_updates 操作 ， 

# 该 操作 利用 clones_gradients 中 的 梯度 更 新 对 应 的 参数 

grad_updates = optimizer.apply_gradients(clones_gradients， 


global_step=global_step) 
update_ops.append(grad_updates) 


update op = tf.group(*update_ops) 

# 最 终 得 到 train_op， 它 表示 完成 一 次 选 代 所 需 的 所 有 更 新 操作 

train_op = control_flow_ops.with_dependencies([update_op]，total_1oss， 
name='train_op') 


如 果 deploy 方法 的 输入 参数 中 optimizer 为 None， 那 么 train_op 为 None， 通 过 计算 所 
有 clone 上 损失 值 的 平均 值得 到 最 终 损失 值 total_1l1oss: 


else: 

clones_losses = [] 

regularization losses = tf.get collection(tf.GraphKeys .REGULARIZATION_LOSSES) 

for clone in clones: 

with tf.name_scope(clone.scope) : 

# 调用 model_deploy 模块 中 的 _gather_clone_loss 方法 ,得 到 当前 Clone 所 对 应 的 所 有 损失 值 ， 
# 该 损失 值 由 tf.GraphKeys.LOSSES 指定 的 损失 值 和 输入 参数 regularization_losses 9 
# 指定 的 损失 值 共同 构成 。 其 中 ，tf.GraphKeys.LOSSES 指定 的 损失 值 需 要 除 以 Clone 的 个 数 
clone_loss = _gather clone_loss(clone, len(clones), regularization_ losses) 
if clone loss is not None: 


clones_losses.append(clone_loss) 
# 除了 第 一 个 Clone 之 外 ， 其 他 的 Clone 所 对 应 的 regularization_losses 都 被 忽略 
regularization losses = None 
if clones_losses: 
# 将 所 有 Clone 的 损失 值 clones_losses 相 加 ， 得 到 总 的 损失 值 total_loss 
total_loss = tf.add_n(clones_losses, name='total loss') 


此 外 ，deploy 方法 还 指定 了 一 些 summary_op ， 用 于 记录 模型 参数 的 梯度 和 损失 值 的 变化 。 
最 终 ，deploy 方法 返回 一 个 DeployedModel 对 象 。 


9.2.5 nets 包 


该 包 提 供 多 种 CNN 模型 的 实现 ， 其 中 内 置 了 很 多 模块 ， 如 alexnet 、inception、vgg 等 。 
这 些 模块 各 自 定义 了 一 个 CNN 模型 ， 例 如 alexnet.py 定义 了 AlexNet v2 模型 。 除 此 之 外 ，nets 
包 还 有 一 个 nets_factory 模块 ,该 模块 定义 了 两 个 字典 一 一 networks_map 和 arg_scopes_map， 
前 者 保存 nets 包 中 模型 的 名 字 与 模型 的 实现 函数 之 间 的 映射 关系 ， 后 者 保存 nets 包 中 模型 的 
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名 字 与 参数 作用 域 (arg_scope ) 之 间 的 映射 关系 。 此 外 ， 该 模块 还 定义 了 get_network_fn 方 
法 ,用户 可 以 调用 该 方法 获得 所 需要 的 模型 的 实现 函数 。 该 方法 的 实现 如 下 : 


def get_network_fn(name，num_classes，Wweight_decay=6.6，ijis training=False): 
if name not in networks_map : 
raise ValueError( Name of network unknown %s' % name) 
arg_scope = arg_scopes map[name] (weight_ decay=weight_decay) 
# 在 network_map 字典 中 ， 通 过 指定 的 模型 名 字 (如 alexnet_v2) 
# 得 到 一 个 模型 的 实现 函数 (如 alexnet.alexnet v2 方法) 


func = 


networks_map[name] 


# 此 处 使 用 functools.wraps 装饰 器 ， 在 原 耶 数 func 之 上 添加 参数 作用 域 arg_scope， 
# 以 避免 在 模型 定义 时 重复 写 过 多 的 参数 
@functools .wraps(func) 
def network_fn(images): 
with slim.arg_scope(arg_scope): 
return func(images, num_classes, is training=is_ training) 
if hasattr(func, 'default image_ size'): 
# 每 个 模型 的 实现 函数 都 会 设 定 该 模型 的 默认 输入 图 像 的 分 辨 率 (或 大 小 ) 
network_fn.default_image_size = func.default image_size 
return network_fn 


当 我 们 要 增加 一 个 自 定义 模型 时 ， 首 先 需 在 nets_factory 模块 的 networks_map 和 
arg_scopes_map 中 添加 一 个 键 值 对 ， 然 后 在 nets 包 中 增加 一 个 以 模型 名 字 命 名 的 模块 。 下 面 
以 AlexNet v2 模型 为 例 ， 介 绍 alexnet 模块 包含 的 主要 内 容 。 该 模块 的 主要 实现 代码 如 下 : 


def alexnet v2(inputs, 
num_classes=1666， 
is_training=True， 
dropout_keep_prob=6.5， 


end_points_collection = sc.name + 
tensorflow.contrib.slim.arg_scope(list_ops_or_scope,**kwargs) 方 法 
(tensorflow.contrib.framework.python.ops.argscope(list ops_or_scope,**kwargs) 
方法 ) 的 作用 是 : 

当 list_ops_or_scope 为 ops 列表 时 ， 

将 kwargs 中 指定 的 键 值 对 作为 ops 列表 中 每 个 Op 的 输入 参数 。 

此 处 ,调用 slim.arg_scope 方法 ， 使 得 卷 积 (conv2d) 、 全 连接 (fully_connected) 

和 最 大 池 化 (max_poo12d) 三 种 算 子 的 输出 神经 元 组 成 的 张 量 都 保存 在 end_points_collection 中 


半音 音 间 间 间 半 


sp 


atial_squeeze=True， 


scope="'alexnet_v2'): 
with tf.variable_ scope(scope, 'alexnet v2', [inputs]) as sc: 


_end_points" 


with slim.arg_scope([slim.conv2d, slim.fully_connected, slim.max_pool2d], 


net 
net 
net 
net 
net 
net 
net 
net 


# 利 


= slim. 
= slim. 
= slim. 
= slim. 
= slim. 
= slim. 
= slim 
= slim. 
用 conv2 


outputs_collections=[end_points_collection]): 
conv2d(inputs, 64, [11, 11], 4, padding="'VALID',scope='conv1') 
max_pool2d(net, [3, 3], 2, scope='pool1') 
conv2d(net, 192, [5, 5], scope="'conv2') 
max_pool2d(net, [3, 3], 2, scope='poo12') 
conv2d(net, 384, [3, 3], scope="'conv3') 
conv2d(net, 384, [3, 3], scope="'conv4') 


.conv2d(net, 256, [3, 3], scope="'conv5') 


max_pool2d(net, [3, 3], 2, scope='pool5') 
d 实现 全 连接 层 


with slim.arg_scope([slim.conv2d], 


wejights_initializer=trunc_normal(8.065)， 
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biases initializer=tf.constant_initializer(8.1)): 
net = slim.conv2d(net, 4696, [5, 5], padding="'VALID', scope='fc6') 
net = slim.dropout(net, dropout keep_prob, is training=is_ training, scope="'dropout6') 
# 因为 前 一 层 已 经 是 全 连接 层 ， 即 特征 图 的 尺寸 为 1x1， 所 以 此 处 卷 积 核 也 设置 为 1x1 
net = slim.conv2d(net, 4696, [1, 1], scope='fc7') 
net = slim.dropout(net, dropout keep_prob, is training=is_training, scope="'dropout7') 
net = slim.conv2d(net, num_classes, [1, 1], 
activation_ fn=None， 
normalizer_fn=None, 
biases_initializer=tf.zeros_initializer, 
scope='fc8') 
# 将 end_points_collection 转换 为 end_points 字典 。 该 字典 中 的 key 表示 该 模型 中 每 一 层 的 名 字 ， 
# Value 表示 每 一 层 的 输出 张 量 。 
end_points = slim.utils.convert_ collection to dict(end points_collection) 
if spatial_squeeze: 
# 如 果 spatial_squeeze 为 True， 则 对 最 后 一 个 全 连接 层 的 输出 张 量 的 形状 进行 转换 ， 
# 这 样 做 的 好 处 是 能 够 去 除 一 些 不 必要 的 维度 ， 方 便 计 算 。 该 张 量 原来 的 形状 为 [N,H,W,C]， 
# N 表示 当前 训练 的 批 大 小 (batch_size)，H 和 几 表 示 特 征 图 的 高 和 宽 ，C 表示 特征 图 的 通道 数 
# ( 即 分 类 问题 中 的 类 别 数 ) 。 因 为 该 张 量 是 全 连接 层 的 输出 ， 所 以 H 和 W 都 为 1。 
# 通过 tf.squeeze 方法 将 H 和 由 所 在 的 维度 去 掉 ， 该 张 量 的 形状 变 为 [N,C] 
net = tf.squeeze(net, [1, 2], name='fc8/squeezed') 
end_points[sc.name + '/fc8'] = net 
return net, end_points 
# AlexNet v2 模型 的 输入 图 像 分 辩 率 默认 为 224x224 
alexnet_ v2.default image_size = 224 


通过 is_training 变量 ,我 们 可 以 设置 该 模型 是 用 于 训练 还 是 推理 计算 。alexnet_v2 方法 调 
用 tensorflow.contrib.1layers.python.layers 中 的 二 维 卷 积 计 算 API 一 一 conv2d .max_poo12d、 
dropout 分 别 实现 卷 积 层 、 最 大 池 化 层 和 Dropout 层 的 计算 。 以 第 一 层 卷 积 计算 为 例 ，conv2d 
的 第 一 个 参数 inputs 表示 该 层 的 输入 神经 元 , 即 输入 图 像 ; 第 二 个 参数 64 表示 第 一 层 卷 积 计算 
的 输出 为 64 通道 ; 第 三 个 参数 [11,11] 表示 卷 积 核 大 小 为 11x11; 第 四 个 参数 4 表示 卷 积 核 在 
输入 图 像 上 滑动 的 间距 为 4;， 第 五 个 参数 表示 补 零 的 方式 为 VALID 方式 (详细 解释 见 9.1 家 ， 
如 果 不 设置 这 个 参数 ， 补 零 方 式 将 自动 采用 alexnet_v2_arg_scope 中 设 定 的 默认 参数 值 。 

除了 模型 定义 本 身 外 ，alexnet 模块 还 包括 alexnet_v2_arg_scope 方法 , 它 用 于 提供 模型 
的 参数 作用 域 arg_sc。 这 样 做 的 好 处 在 于 可 以 避免 为 每 个 算 子 ( conv2d 等 ) 显 式 指 定 很 多 参数 。 
例如 ， 在 AlexNet v2 模型 中 ， 所 有 激活 层 都 采用 ReLU 激活 函数 ，alexnet_v2_arg_scope 方法 
已 经 指定 了 激活 函数 为 tf.nn.relu， 这 使 得 alexnet_v2 不 需要 在 调用 每 个 算 子 时 再 指定 激活 
限 数 。 

alexnet_v2_arg_scope 方法 的 代码 及 其 解释 如 下 : 


def alexnet_v2_arg_scope(weight_decay=8.0665) : 
# 在 该 参数 作用 域 下 的 conv2d 和 fully_connected 的 计算 中 ， 激 活 有 函数 默 认 采 用 
# tf.nn.relu，biases 参数 默认 采用 6.1 恒定 值 作为 初始 化 值 ， 
# weights 的 正则 化 默认 采用 L2 范式 (可 以 防止 过 拟 合 ) 。 用 户 可 显 式 指定 其 他 方式 
with slim.arg_scope([slim.conv2d, slim.fully_connected], 
activation_fn=tf.nn.relu, 
biases initializer=tf.constant initializer(08.1), 
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weights_regularizer=slim.]12_regularizer(weight_ decay)): 
# 在 该 参数 作用 域 下 的 conv2d 计算 中 ， 补 霍 默认 采用 SAME 方式 ， 用 户 可 显 式 指定 其 他 方式 
with slim.arg_scope([slim.conv2d], padding="SAME'): 
# 在 该 参数 作用 域 下 的 max_poo12d 中 ， 补 堆 默 认 采 用 VALID 方式 ， 用 户 可 显 式 指定 其 他 方式 
with slim.arg_scope([slim.max_pool2d], padding="'VALID') as arg_sc: 
return arg_sc 


9.2.6 ”TensorFlow-Slim 最 佳 实践 


TensorFlow-Slim 提供 两 个 可 作为 程序 执行 人 口 的 Python 文件 一 一 train image_classifier.py 和 
eval image_classifierpy， 它 们 分 别 用 于 训练 和 评估 深度 学 习 模 型 。 下 面 将 简单 介绍 如 何 使 用 
TensorFlow-Slim 做 CNN 模型 训练 和 推理 。 


在 train_image_classifier 模块 中 ,程序 首先 使 用 tf.app.flags 定义 了 一 系列 参数 (其 
中 FLAGS 成 员 包 含 所 有 命令 行 参数 )， 包 括 系 统 参数 ( 比如 模型 克隆 的 个 数 、 参 数 服 务 器 个 数 、 
是 否 用 CPU 训练 、 当 前 计算 节点 的 进程 ID 等 )， 数 据 IO 配置 参数 ( 比如 reader 的 个 数 、 预 处 
理 线程 的 个 数 )， 训 练 过 程 的 配置 参数 ( 比如 训练 日 志 的 保存 间隔 、summary 节点 的 数据 保存 间隔 
等 ), 模型 优化 器 相关 的 参数 ( 比如 参数 权重 衰减 、 优 化 器 类 型 、 动 量 值 等 ), 学 习 速 率 相关 的 参数 
( 比如 学 习 速 率 衰减 模式 、 学 习 速 率 大 小 等 ) 数据 集 相关 的 参数 ( 比如 数据 集 名 、 数 据 集 类 型 、 标 
签 偏 移 、 批 大 小 、 模 型 名 等 )， 以 及 微调 模型 时 的 参数 ( 比如 预 训练 模型 的 路 径 、 微 调 模 型 时 需要 
训练 的 参数 等 )。 


随后 , 程序 开始 训练 模型 。 训 练 过 程 的 主要 步 又 包括 定义 部 署 配置 、 选 择 数据 集 、 选 择 模 型 、 
选择 预 处 理 函 数 、 建 立 数据 提供 器 、 建 立 模型 、 设 置 优化 器 和 同步 优化 器 〈 如 需 分 布 式 训练 )、 
获得 单 步 训 练 操作 并 启动 训练 。 各 个 步骤 的 具体 代码 及 解释 如 下 。 


(1) 定义 部 署 配置 。 根 据 自 定义 的 flags 参数 生成 一 个 DeploymentConfig 对 象 。 因 为 当前 
train_image_classifier 模块 仅 提供 单机 单 GPU 或 单机 多 GPU 训练 模式 ， 暂 时 不 支持 分 布 式 
训练 模式 ， 所 以 FLAGS .task 默认 为 0，FLAGS .worker_replicas 和 FLAGS.num_ps_tasks 默认 
分 别 为 1 和 0。 相 关 代码 如 下 : 


deploy_config = model deploy.DeploymentConfig( 
num_clones=FLAGS .num_clones，## Clone 对 象 的 个 数 
clone_on_cpu=FLAGS .clone_on_cpu，# 布尔 类 型 变量 ， 表 示 是 否 将 Clone 对 象 部 署 在 CPU 上 
replica_id=FLAGS .task，# worker 或 PS 进程 的 ID 
num_rep1licas=FLAGS.worker_replicas，# worker 任务 数 ( 详 见 5.2 节 ) 
num_ps_tasks=FLAGS.num_ps_tasks) # PS 任务 数 


然后 ， 新 建 一 个 同步 标记 global_step 来 对 训练 过 程 中 的 迭代 次 数 进行 计数 : 


with tf.device(deploy_config.variables_device()): 
global_step = Slim.create_global_step() 


(2) 选择 训练 数据 集 、 模 型 哨 数 和 相应 的 预 处 理 函 数 。 在 数据 集 工厂 ( dataset_factory )、 
网 络 工厂 (network_factory ) 和 数据 预 处 理工 厂 ( preprocessing_factory ) 中 选择 所 需要 的 
数据 集 、 模 型 冰 数 和 数据 预 处 理 函 数 ， 供 后 续 步 又 使 用 : 
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# 根据 FLAGS 指定 的 数据 集 名 字 dataset_name (如 imagenet) 、 
# 数据 集 被 分 割 后 的 子 数据 集 名 称 dataset_split_name (如 train) 
# 和 数据 集 所 在 的 绝对 路 径 dataset_dir， 从 dataset_factory 中 获得 数据 集 对 象 dataset 
dataset = dataset factory.get dataset( 
FLAGS .dataset name, FLAGS.dataset split name, FLAGS.dataset dir) 
# 根据 FLAGS 指定 的 模型 名 称 model_name (如 alexnet v2) 、 
# 分 类 类 别 数 num_classes 和 权 值 衰减 weight_decay ( 即 L2 正则 项 前 面 的 系数 ) ， 
# 从 nets_factory 中 获得 模型 函数 对 象 network_fn 
network_fn = nets_factory.get_network_fn( 
FLAGS .model_name, 
num_classes=(dataset.num classes - FLAGS.1labels_offset)， 
weight decay=FLAGS .weight_decay, 
is_training=True) 
# 指定 预 处 理子 数 名 
preprocessing_ name = FLAGS.preprocessing name or FLAGS.model name 
# 根据 预 处 理 函 数 名 ， 从 preprocessing_factory 中 获得 图 像 预 处 理 吕 数 对 象 
# image_preprocessing fn, 
image_preprocessing fn = preprocessing factory.get preprocessing(preprocessing_ name, 
is_ training=True) 


(3) 建立 数据 提供 器 。 根 据 上 一 步 获 得 的 dataset 对 象 ， 创 建 DatasetDataProvider 对 象 ， 
以 得 到 训练 所 需要 的 输入 图 像 和 标签 张 量 。 为 了 加 速 数据 集 的 读 取 性 能 , 可 以 采用 多 线程 方式 读 
取 数 据 。DatasetDataProvider 对 象 调用 多 个 Reader 对 象 的 reader 方法 读 取 所 需 的 数据 : 


with tf.device(deploy_config.inputs_ device()): 
# FLAGS .num_readers 指定 了 同时 读 取 数据 集 的 线程 数 (默认 为 4) ， 
# 不 同 线程 读 取 的 数据 入 队 到 common_queue 中 。 此 处 默认 设 定 common_queue 
# 的 最 大 容量 为 训练 批 大 小 (batch_size) 的 26 倍 。common_queue_min 
# 表示 common_queue 队列 中 最 少 保留 的 数据 量 ， 默 认 设 定 为 训练 批 大 小 的 18 信 
provider = slim.dataset data_provider.DatasetDatapProvider( 
dataset， 
num_readers=FLAGS .num_readers， 
common_queue_capacity=26 * FLAG9S.batch_size， 
common_queue_min=16 * FLAGS .batch_size) 
# 如 9.2.1 节 所 述 ， 可 以 根据 key 值 image 和 1label 从 provider 对 象 中 获得 训练 数据 及 其 标签 张 量 
[image, label] = provider.get(['image', 'label']) 
# 因为 在 VGG 或 ResNet 模型 中 ， 背 景 没有 被 当 作 分 类 数据 集中 的 一 个 类 别 ， 
# 所 以 当 训 练 这 两 类 模型 时 ，labels_offset 要 被 设置 为 1 
label -= FLAGS.1abels_offset 
# 设 定 训练 时 输入 图 像 的 分 辨 率 
train_image_size = FLAGS .train_image_size or network_fn.default_image_size 


当 输 入 图 像 经 被 选 定 的 预 处 理 函 数 处 理 后 , 调用 tf .train.batch 方法 得 到 当前 迭代 所 用 到 
的 训练 数据 ( 批 大 小 为 FLAGS 指定 的 batch_size ), 并 One-Hot 编码 方式 对 1abels 进行 编码 。 
然后 ， 调 用 slim.prefecth_queue.prefetch_queue 方法 得 到 batch_queue， 用 于 存放 准备 好 
的 数据 。 具 体 代码 如 下 : 

# 训练 数据 经 过 图 像 预 处 理 隙 数 处 理 

image = image_preprocessing fn(image, train image_size, train image_size) 

# 通过 FLAGS .num_preprocessing_threads 指定 的 线程 数 并 行 读 取 ， 

# 得 到 当前 迭代 用 到 的 训练 数据 images 和 labels 张 量 


images, labels = tf.train.batch( 
[image，1abel]， 
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batch_size=FLAGS.batch_size， 

num_threads=FLAGS .num_preprocessing threads， 

capacity=5 * FLAGS .batch_size) 
labels = Slim.one_hot_encoding( 

labels, dataset.num classes - FLAGS.labels offset) 
# 调用 prefetch_queue 方法 ， 启动 一 个 QueueRunner 对 象 用 于 保存 预先 准备 好 、 
# 即将 被 训练 的 数据 。 准 备 好 的 数据 放 在 缓冲 区 队列 batch_queue 中 
batch_queue = Slim.prefetch_queue.prefetch_queue( 

[images, labels], capacity=2 * deploy_config.num_clones) 


(4) 定义 clone_fn 方法 。 根 据 之 前 选 定 的 某 个 具体 的 模型 也 数 ( 如 AlexNet v2 等 ) 和 相应 
的 批 数据 ( 图 像 images 和 标签 1abels ) 得 到 模型 各 层 的 输出 : 


def clone_fn(batch_queue): 
# 从 batch_queue 中 得 到 本 次 迭代 所 需要 的 训练 数据 一 一 一 images 和 labels 
images, labels = batch_queue.dequeue() 
# 调用 network_fn， 得 到 CNN 模型 最 后 一 层 的 输出 张 量 1ogits， 
# 以 及 由 CNN 模型 中 每 层 的 输出 张 量 所 组 成 的 集合 end_points 
logits, end_points = network_fn(images) 
# 在 某 些 CNN 模型 (如 Inception V3) 中 ,为 了 减少 梯度 消失 现象 ， 
# 模型 中 间 某 一 个 或 多 个 层 的 输出 被 用 于 辅助 分 类 。 这 些 层 的 输出 张 量 为 AuxLogits 
if 'AuxLogits' in end_points: 
# 将 辅助 分 类 层 的 损失 函数 值 也 计算 在 模型 整体 的 损失 值 中 。 
# weight 参数 表示 辅助 分 类 层 对 应 的 损失 值 在 计 入 总 损失 值 时 被 来 的 折扣 有 系数 
slim.losses.softmax_cross_entropy( 
end_points['AuxLogits'], labels, 
label_smoothing=FLAGS.1label_ smoothing, weight=6.4, scope='aux_loss') 
# 计算 最 后 分 类 层 所 对 应 的 损失 值 
slim.losses.softmax_cross_entropy( 
logits, labels, label smoothing=FLAGS.label_ smoothing, weight=1.08) 
# 返回 模型 每 层 的 输出 张 量 所 组 成 的 集合 
return end_points 


(5) 建立 训练 模型 。 根 据 已 定义 的 DeploymentConfig 对 象 、 模 型 函数 和 训练 数据 的 预 取 队 
列 ， 建 立 相 应 个 数 的 模型 clone 对 象 组 成 的 列表 一 一 clones: 

clones = model deploy.create clones(deploy_config, clone fn, [batch_queue]) 

根据 第 一 个 clone 对 象 的 作用 域 得 到 一 系列 更 新 操作 ,这 些 更 新 操作 与 每 次 迭代 时 模型 参数 
的 更 新 有 关 : 


first_clone_scope = deploy_config.clone_scope(6) 
update_ops = tf.get collection(tf.GraphKeys.UPDATE_OPS, first _ clone_scope) 


如 果 FLAGS 中 指定 了 moving_average_decay 的 值 ,那么 需要 对 该 模型 中 的 模型 参数 做 滑动 
平均 操作 ， 以 提升 模型 的 健壮 性 。 假 设 1 时 刻 模 型 参数 wi 的 值 为 w(t?)， 则 此 时 与 wi 关联 的 滑动 
平均 变量 被 定义 为 wwD=4 mi({-1)+(1-4)* wx(。 其 中 ，4 表示 衰减 率 ， 它 是 一 个 可 被 调节 的 超 
参 ， 由 FLAGS .moving_average_decay 指定 。 当 4 越 大 时 , 模型 参数 的 更 新 越 慢 。 相 关 代 码 如 下 : 

if FLAGS .moving_average_decay : 

# 如 果 衰 减 率 FLAGS .moving_average_decay 的 值 被 指定 ， 


# 则 moving_average_variables 表示 具有 滑动 平均 特性 的 模型 参数 变量 ， 
# variable_averages 表示 相应 的 滑动 平均 变量 
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moving_average_variables = slim.get model variables() 
variable_averages = tf.train.ExponentialMovingAverage( 
FLAGS .moving_average_decay，8g&Lobal_step) 
else: 
moving_average_variables, variable averages = None, None 


(6) 定义 模型 的 优化 器 。 首 先 根据 FLAGS 所 指定 的 梯度 衰减 策略 ， 创 建 相 应 的 学 习 速 率 张 量 
learning_rate。 然 后 根据 learning_rate 和 FLAGS 所 指定 的 优化 器 类 型 创建 优化 器 optimizer: 


with tf.device(deploy_config.optimizer device()): 
# 当前 ， 在 学 习 速 率 的 调整 方面 ,支持 exponential、fixed、polynomial 这 三 种 策略 
learning rate = _configure learning rate(dataset.num samples, global_step) 
# 根据 FLAGS 所 指定 的 优化 器 类 型 创建 相应 的 优化 器 optimizer。 
# 当前 支持 adadelta、adagrad、adam、ftrl、momentum、rmsprop 和 sgd 这 七 种 优化 器 
optimizer = _configure optimizer(learning_rate) 
summaries.add(tf.scalar_summary('learning_rate', learning_rate, 

name='learning_rate')) 


对 于 多 个 worker 并 行 训练 的 情况 , 我们 可 以 定义 一 个 同步 优化 絮 ，, 利用 QueueRunner 来 保 
存 每 个 worker 计算 得 到 的 梯度 ， 并 对 模型 梯度 求 平均 。 代 码 如 下 : 


if FLAGS.sync_replicas: 
# 如 5.2 节 所 述 ， 进 行 分 布 式 计算 时 ， 需 要 定义 同步 优化 器 。 
# 当前 开源 的 train_image_classifier.py 对 分 布 式 支持 还 不 完善 ， 
# 此 处 代码 需要 配合 tf.train.CLusterSpec、tf.train.Server 等 接口 一 起 使 用 ， 才 能 实现 分 布 式 训练 
optimizer = tf.train.SyncReplicasOptimizer( 
opt=optimizer, 
replicas_ to_ aggregate=FLAGS .replicas_ to aggregate, 
variable_averages=variable_averages, 
variables_to_average=moving_average_variables, 
replica_id=tf.constant(FLAGS.task, tf.int32, shape=()), 
total_num_replicas=FLAGS .worker_replicas) 
elif FLAGS.moving_average_decay: 
# 如 果 衰 减 率 FLAGS .moving_average_decay 的 值 被 指定 ， 则 对 模型 参数 更 新 采取 滑动 平均 操作 
update_ops.append(variable_averages.apply(moving_average_variables)) 


(7) 获得 单 步 训练 操作 并 启动 训练 。 根 据 之 前 定义 的 optimizer、clones， 以 及 模型 参数 ， 
调用 model_deploy .optimize_clones 方法 得 到 的 多 个 模型 克隆 的 损失 值 和 梯度 。 进 而 通过 调用 
optimizer.apply_gradients 方法 得 到 梯度 更 新 操作 ,然后 将 这 些 梯度 更 新 操作 合并 为 train_tensor: 


# 此 段 代码 类 似 于 9.2.3 节 介 绍 的 deploy 方法 的 部 分 代码 ( 当 optimizer 非 None 时 ) 

variables to train = get variables to train() 

total_loss, clones gradients = model deploy.optimize clones(clones, optimizer, 
var_list=variables_to train) 

summaries.add(tf.scalar_summary('total loss', total loss, name='total_ loss')) 

grad_updates = optimizer.apply_gradients(clones_ gradients, global_step=global_step) 

update_ops.append(grad_updates) 

update_op = tf.group(*update_ops) 

train_ tensor = control_flow_ops.with dependencies([update op], total loss, name="'train_op') 


最 后 ， 调 用 slim.1learning.train 方法 启动 训练 : 
slLim.learning.train( 
train_tensor，# 单 步 和 迭代 的 训练 操作 


logdir=FLAGS.train_dir，# 训练 过 程 中 日 志和 模型 检查 点 文件 等 存放 的 目录 
master=FLAGS .master，## master 的 地 址 ， 在 单机 训练 时 没有 用 到 
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is_chief=(FLAGS.task == 6),# 当前 worker 是 否 为 chief worker (在 分 布 式 训练 场景 中 用 到 ) 
init_fn=_get_init_fn()，# 模型 初始 化 函数 

summary_op=summary_ op，# summary 操作 

number_of_steps=FLAGS.max_number_of_steps, # 最 大 训练 步 数 

log_every_n_steps=FLAGS.log every_n_steps, # 输出 日 志 的 间隔 (以 步 数 为 单位 ) 
save_summaries_secs=FLAGS.save_summaries_secs, # 输出 summary 日 志 的 间隔 (以 秒 为 单位 ) 
save_interval_secs=FLAGS.save_interval_secs, # 保存 模型 检查 点 文件 的 间隔 (以 秒 为 单位 ) 
sync_optimizer=optimizer if FLAGS.sync_replicas else None# 同 步 优 化 器 (在 单机 训练 时 为 None) 


在 模型 推理 阶段 ， 我 们 需要 使 用 eval_image_classifier 模块 。 该 模块 的 处 理 流程 与 
train_image_classifier 类 似 , 但 因为 它 不 需要 训练 ， 所 以 没有 涉及 优化 器 的 定义 等 环节 。 用 
户 可 以 在 eval_image_classifier 模块 中 指定 Accuracy 和 Recall1， 用 来 对 模型 的 好 坏 作 出 评 
价 。 相 关 代码 如 下 : 


# 定义 Accuracy 和 Recall 

names_to_values, names_to updates = slim.metrics.aggregate metric map({ 
'Accuracy': slim.metrics.streaming accuracy(predictions, labels), 
"Recal105 ' : slim.metrics.streaming recall at k(logits, labels, 5), 


}) 
我 们 可 以 通过 调用 slim.evaluation.evaluate_once 方法 实现 模型 推理 : 


slim.evaluation.evaluate_oncel( 
master=FLAGS .master，# master 的 地 址 
checkpoint_path=checkpoint_path，# 模型 检查 点 文件 所 存放 的 目录 
logdir=FLAGS.eval dir，,# 推理 过 程 中 输出 日 志 所 存放 的 目录 
num_evals=num_batches，# 推理 过 程 中 所 计算 的 批 的 个 数 
eval_op=names_to_updates.values()，# 推理 态 所 需 执 行 的 操作 
variables_to_restore=variables_to_restore) # 在 推理 过 程 中 所 要 加 载 参 数值 的 变量 
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9.1 节 提 到 的 模型 都 是 分 类 模型 ， 这 些 模型 的 输入 是 图 像 ， 输 出 是 图 像 的 类 别 。 但 事实 上 ， 
除了 可 以 应 用 于 图 像 分 类 之 外 ，CNN 还 可 以 用 于 检测 、 分 市 等 其 他 应 用 。 例 如 ， 在 很 多 实际 应 
用 中 , 我 们 不 仅 需 要 得 到 整个 图 像 的 分 类 结果 ,还 要 得 到 图 像 中 每 个 物体 的 位 置 、 大 小 和 类 别 信 
息 , 这 就 需要 物体 检测 模型 。 在 一 些 机 器 人 视觉 导航 系统 中 , 我 们 需要 对 周围 环境 的 图 像 做 分 割 ， 
即 确定 每 个 像素 的 标签 ， 以 实现 场景 理解 。 


9.3.1 物体 检测 


物体 检测 是 图 像 和 视频 处 理 技术 的 一 类 重要 应 用 , 典型 的 应 用 场景 之 一 是 视频 监控 中 的 行人 
检测 。 在 数据 集 方面 , 不同 于 图 像 分 类 数据 集 ， 物 体检 测 数据 集中 训练 集 的 标注 比较 复杂 。 标注 
言 息 包括 图 像 中 包含 的 每 个 物体 的 类 别 及 其 包围 框 ( bounding box ) 的 左上 角 和 右 下 角 的 坐标 ， 
我 们 可 以 根据 这 些 坐 标 计 算出 物体 在 图 像 中 的 位 置 和 大 小 。 通 常 ，IoU ( Intersection over Unit ) 
用 于 表示 预测 的 包围 框 和 标注 的 包围 框 的 相似 度 , 它 被 定义 为 这 两 个 包围 框 的 交集 面积 与 并 集 面 
积 之 比 。 当 IoU=1 时 ， 预 测 的 框 与 标注 框 重合 。 


在 算法 和 模型 方面 ， 以 行人 检测 为 例 ， 以 前 比较 主流 的 做 法 是 采用 HOG 算 子 作为 特征 提取 
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器 ， 并 以 SVM 等 作为 分 类 器 。 当 前 ， 因 为 经 过 大 量 数据 训练 的 CNN 模型 的 特征 提取 能 力 很 强 ， 
所 以 主流 的 物体 检测 算法 都 是 基于 CNN 模型 构建 的 。 常 用 的 算法 模型 有 以 下 几 种。 
1. R-CNN 模型 


R-CNN (Regions with CNN ) 首次 将 CNN 模型 应 用 于 物体 检测 领域 ， 并 在 Pascal VOC 公开 
数据 集 上 验证 了 其 有 效 性 。 如 图 9-17 所 示 ，R-CNN 模型 首先 通过 SS ( Selective Search ) 方法 提 
取 图 像 中 所 有 可 能 存在 的 物体 候选 框 ( 约 2000 个 ), 然后 将 每 个 物体 所 占 像素 面积 归 一 化 为 某 一 
CNN 模型 的 输入 尺寸 (如 227x227 )， 并 使 其 经 过 CNN 做 特征 提取 ， 将 提取 的 特征 向 量 输入 到 
SVM 分 类 器 中 做 分 类 ， 以 得 到 每 个 物体 候选 框 所 对 应 的 物体 类 别 。 为 了 得 到 更 精确 的 物体 位 置 
信息 ，R-CNN 模型 包含 位 置 回 归 模 型 ， 其 输入 为 SS 方法 提取 的 物体 中 心 坐标 P.、P,， 物体 的 宽 
度 已 ,和 高 度 P， 以 及 相应 物体 包围 框 的 标注 信息 ; 输出 为 每 个 物体 中 心 坐 标的 预测 值 G.、G,， 
以 及 物体 的 宽度 、 高 度 的 预测 值 C, 和 Cr。 


Selective sl 


search 算 法 _ 


SVM[ 一 > 物体 类 别 


位 置 和 尺寸 他 
回归 模 闻 | 上 > 物体 位 置 、 尺 十 


图 9-17 R-CNN 模型 的 基本 框架 ( 另 见 彩 搬 ) 


R-CNN 模型 利用 了 迁移 学 习 的 思想 。 由 于 物体 检测 领域 内 的 开源 标注 数据 集 相 对 较 少 ， 
R-CNN 中 用 于 特征 提取 的 大 部 分 CNN 参数 来 自己 经 训练 好 的 CNN 分 类 网 络 。 在 Pascal VOC 数 
据 集 上 ， 我们 只 需 基于 这 些 参数 再 做 微调 。 


2. SPPNet 模型 


R-CNN 模型 的 SS 方法 在 每 个 输入 图 像 上 提取 出 约 2000 个 候选 框 ， 候 选 框 之 间 往 往 存在 大 
量 的 重 辣 ,每 个 重 钱 区域 都 要 重复 地 进行 CNN 特征 提取 。 这 样 一 来 ， R-CNN 模型 就 会 包含 大 量 
的 重复 计算 。 为 了 解决 这 个 问题 , 有 人 提出 了 SPPNet。 该 模型 引入 了 SPP ( Spatial Pyramid Pooling ) 
层 。SPP 是 基于 Bag-of-words 的 图 像 分 类 方法 (该 方法 依据 图 像 中 以 SIFT 特征 为 核心 建立 的 “ 视 
觉 词 汇 ”分 布 图 对 图 像 分 类 ) 的 一 个 延伸 , 它 的 核心 思想 是 考虑 图 像 中 空间 位 置 的 重要 性 。 如 图 
9-18 所 示 , 该 模型 首先 使 用 CNN 网 络 中 的 卷 积 层 对 原始 图 像 做 特征 提取 , 同时 采用 SS 方法 在 原 

台 图 像 中 提取 一 系列 候选 框 ， 并 在 CNN 提取 得 到 的 特征 图 中 找到 原始 图 像 中 每 个 候选 框 所 对 应 
的 特征 子 图 。 接 下 来 , 对 每 个 特征 子 图 进行 SPP 处 理 , 即将 特征 子 图 按照 固定 规格 的 分 块 做 池 化 。 
比如 ， 将 每 个 特征 子 图 分 别 分 割 为 MxXN 块 ， 然 后 将 每 一 块 池 化 为 SPP 层 输 出 的 特征 图 中 的 一 个 
点 。 M 入 的 值 可 以 被 改变 以 产生 不 同 粒度 ( 对 应 图 像 金字 塔 的 不 同 层 ) 的 池 化 结果 。 不同 粒 度 
的 池 化 结果 组 合 起 来 形成 SPP 层 的 所 有 输出 特征 图 。 这 些 输出 特征 图 进入 后 续 的 全 连接 层 做 进 
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一 步 特 征 提取 后 ， 产 生 固定 长 度 的 特征 向 量 ， 便 于 最 终 的 分 类 。 
Selective search 算法 提取 的 候选 框 映射 


> 物体 类 别 


位 置 和 尺寸 ”|_> 物体 位 置 、 尺 二 


可 归 模型 
图 9-18 SPPNet 模型 的 基本 框架 ( 男 见 彩 插 ) 


SPP 层 的 引入 使 得 SS 方法 产生 的 不 同 大 小 的 候选 框 在 进入 全 连接 层 之 前 具有 相同 的 特征 维 
度 。SPPNet 避免 了 多 个 候选 框 间 重复 部 分 的 卷 积 计算 , 在 计算 速度 上 比 R-CNN 模型 有 两 个 数量 
级 的 提升 。 与 R-CNN 模型 相同 的 是 : 在 用 SVM 对 每 个 候选 框 做 完 分 类 后 ，SPPNet 模型 对 每 个 
候选 框 的 位 置 和 大 小 做 进一步 的 回归 拟 合 ， 使 得 对 物体 的 定位 更 准确 。 


3. Fast R-CNN 模型 


R-CNN 模型 和 SPPNet 模型 在 处 理 流 程 上 仍然 遵循 着 提取 特征 、 微 调 网 络 、 训 练 SVM 分 类 
器 、 拟 合 候选 框 位 置 和 尺寸 值 这 四 个 步骤 ， 而 不 是 端 到 端的 训练 过 程 。 虽 然 SPP 层 是 可 微 的 , 但 
是 SPPNet 也 没有 对 SPP 层 之 前 的 卷 积 层 做 微调 更 新 。 为 了 解决 这 些 问题 ，Ross Girshickt 提出 了 
Fast R-CNN 模型 , 其 基本 框架 如 图 9-19 所 示 。 与 SPPNet 不同 , Fast R-CNN 模型 采用 ROI( Region 
of Interest ) 池 化 层 ， 将 不 同 大 小 的 候选 框 对 应 的 特征 图 转换 为 固定 大 小 (Hx 到 y) 的 特征 图 。ROI 
池 化 层 可 以 看 作 SPP 层 的 一 个 特例 , 即 仪 有 一 个 金字 塔 层 的 情况 (HW 的 取 值 仪 有 一 种 ), 在 ROI 
池 化 层 和 全 连接 层 之 后 ， 该 模型 有 两 个 输出 层 ， 一 个 是 用 于 物体 分 类 的 Softmax 层 ， 另 一 个 是 用 
于 输出 物体 位 置 和 尺寸 的 回归 层 。 


Selective search 算法 提取 的 候 i 物体 
类 别 


物体 
位 置 、 
尺寸 


图 9-19 ”Fast R-CNN 模型 的 基本 框架 ( 另 见 彩 插 ) 
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4. Faster R-CNN 模型 


在 R-CNN、SPPNet 和 Fast R-CNN 中 ， 目 标 物体 的 候选 框 提 取 算法 均 为 SS 方法。 在 该 方法 
中 ,候选 框 是 图 像 经 过 分 割 之 后 的 超 像素 区 域 不 断 相 互 融合 所 形成 的 。 实 际 应 用 时 ，SS 方法 非常 
耗 时 。 为 了 进一步 提升 目标 检测 算法 的 实时 性 ，Faster R-CNN 模型 首次 引入 RPN ( Region Proposal 
Network ) 来 取代 SS 方法 以 产生 候选 框 。 如 图 9-20 所 示 ， 在 RPN 的 输入 特征 图 中 ， 我 们 假设 以 
每 个 像素 点 为 中 心 都 存在 不 同 面积 大 小 和 长 宽 比 的 参考 框 ( anchor )。 上 默认 情况 下 ， 参 考 框 长 宽 
128 128 256 256 


组 合 有 (128, 128) 、 TF; 128V2) 、(128V2， 万 (256, 256) 、 CF 256V2) 、(256V2， 
(512, 512) 、 0 512V2) 、(512V2, 这 J ( 如 果 值 为 小 数 ， 则 取 整 )。 当 我 们 要 对 预测 


的 候选 框 中 心 位 置 和 大 小 信息 做 参数 回归 时 ， 这 些 anchor 起 到 了 中 间 桥 梁 的 作用 。 在 RPN 中 ， 
特征 图 先 经 过 一 层 卷 积 ( 带 激活 函数 ) 计算 ， 再 分 别 经 过 两 个 并 行 的 卷 积 层 得 到 输出 张 量 。 其 中 
一 个 卷 积 层 的 输出 张 量 表示 每 个 anchor 内 的 物体 是 目标 〈 前 景 ) 还 是 背景 ， 另 外 一 个 的 输出 张 
量 表示 候选 框 的 中 心 位 置 和 大 小 信息 。 


物体 
类 别 


图 9-20 ”Faster R-CNN 模型 的 基本 框架 


1 


> Ts(PD)+4 Dp Lt,t)o 
Na reg 


其 中 ，Nus 表 示 每 次 迭代 所 用 到 的 批 大 小 ; Nes 表 示 RPN 输入 特征 图 中 anchor 的 总 数 ; pi 表示 第 
i 个 anchor 中 包含 物体 的 概率 ( 0<i < Nas ); p; 是 标注 信息 。 当 第 i 个 anchor 与 任意 一 个 标注 的 
包围 框 的 IoU 值 大 于 0.7 (一 个 既定 阔 值 ， 可 根据 实际 数据 集 进 行 调节 ), 或 者 与 某 个 标注 的 包围 
框 有 最 大 的 IoU 值 时 ，p; =1， 否 则 p=0。4= [th byt 如] 和 六 =| 友 过 友 才 | 分 别 表示 预测 的 
候选 框 和 标注 的 包围 框 的 位 置 、 尺 寸 信息 ( 即 中 心 坐标 值 x*、y 和 宽度 w、 高 度 hh) 在 经 过 归 一 化 
之 后 的 值 ， 具 体 的 计算 公式 为 : & = Gx 一 xa)/was b= ya)/ha, ty = 1og(w/wa), t= log(h/ha), 

= log(w' /w,) ， 太 =log(h" /及 )。 其 中 ,变量 的 下 角 标 为 a， 
表示 该 变量 用 于 表征 第 i 个 anchor 的 相关 参数 ; 变量 的 上 角 标 为 *， 表 示 该 变量 用 于 表征 标注 的 


Faster R-CNN 中 的 RPN 损失 函数 定义 为 ，L(p,,1) = L 
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包围 框 的 相关 参数 ; 没有 上 和 角 标 或 下 角 标 的 变量 用 于 表征 RPN 预测 的 候选 框 的 相关 参数 。 

最 后 , 原始 图 像 经 CNN 处 理 后 的 特征 图 连同 RPN 产生 的 多 个 候选 框 输入 到 Fast R-CNN 中 ， 
就 可 以 实现 最 终 物 体 的 分 类 和 物体 位 置 、 大 小 的 检测 。 

5. YOLO 模型 

与 上 述 所 有 模型 单独 采用 某 些 算法 或 网 络 提 取 目 标 物体 候选 框 的 做 法 不 同 ,YOLO( You Only 
Look Once ) 模型 将 原始 输入 图 像 直接 均匀 划分 为 SxS 大 小 的 网 格 (一 般 取 5S=7 )， 然 后 将 其 输入 
到 带 有 卷 积 层 、 全 连接 层 的 CNN 网 络 中 。 输 入 图 像 中 ， 每 个 网 格 不 仅 负责 预测 8 个 候选 框 的 5 
维 信息 ( 一般 取 B=2; 5 维 信息 中 4 维 是 候选 框 的 位 置 已 P, 和 尺寸 信息 P, 忆 ， 剩 下 一 维 表示 该 
候选 框 内 是 否 包含 有 目标 物体 的 概率 值 Prob(Object) x IoUwwsw )， 还 负责 预测 C 个 物体 的 类 别 
言 息 Prob(ClassilObject) ( 对 于 Pascal VOC 数据 集 , C=20 )。 因 此 YOLO 模型 的 输出 为 Sx Sx 人 (5B 
+ C) 个 预测 值 。YOLO 模型 的 基本 框架 如 图 9-21 所 示 。 


每 个 网 格 处 物 
体 类 别 、 位 置 
和 尺寸 


图 9-21 YOLO 模型 的 基本 框架 


YOLO 模型 的 优点 在 于 其 速度 极 快 ， 比 Faster R-CNN 至 少 高 一 个 数量 级 ， 特 别 适合 于 端 侧 
( 如 手机 端 ) 的 目标 检测 。 但 是 由 于 输入 图 像 事 先 被 划分 比较 粗 粒 度 的 SxS 个 窗 格 ， 所 以 YOLO 
模型 不 太 适 合 做 小 物体 检测 。 男 外 ,该 模型 在 每 个 窗 格 处 仅 预 测 2 个 候选 框 ， 所 以 对 于 一 些 多 个 
物体 重生 的 场景 可 能 会 失效 。 

6. SSD 模型 

类 似 于 YOLO 模型 ，SSD 模型 直接 采用 一 个 CNN 网 络 同时 完成 对 每 个 候选 框 中 物体 类 别 的 
预测 及 目标 物体 位 置 和 尺寸 的 回归 预测 。 不 同 的 是 , SSD 模型 考虑 了 多 尺度 的 特征 图 对 最 终 预 测 
的 影响 。 如 图 9-22 所 示 ， 在 经 过 基础 的 几 层 卷 积 之 后 ，SSD 模型 采用 额外 的 多 个 卷 积 层 。 每 层 
卷 积 的 输出 通道 数 为 Dx(C+4), 其 中 D 表示 在 原始 图 像 中 每 个 窗 格 内 默认 候选 框 的 个 数 (假设 原 
始 图 像 被 分 为 8x8 或 者 4x4 个 窗 格 )。 


每 个 网 格 处 物 
体 类 别 、 位 置 
和 尺寸 


图 9-22 SSD 模型 的 基本 框架 
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SSD 模型 的 优点 在 于 比 YOLO 模型 更 快 ， 在 很 多 公开 数据 集 上 更 准 。 然 而 ， 由 于 事先 在 原 
始 输入 图 像 中 采用 网 格 划 分 的 方式 提取 候选 枉 ，SSD 和 YOLO 一 样 不 太 适用 于 检测 小 物体 。 

在 物体 检测 领域 中 还 有 其 他 模型 ， 比 如 早期 的 OverFeat 和 后 来 的 FPN (Feature Pyramid 
Network )、PVANet 等 ， 这 些 模型 在 小 物体 检测 、 模 型 小 型 化 、 检 测 的 实时 性 方面 做 了 一 定 改 进 。 


9.3.2 图 像 分 割 


图 像 分 割 是 指 给 图 像 中 每 个 像素 点 都 提供 分 类 标签 的 一 种 图 像 处 理 技 术 。 常用 的 图 像 分 割 方 
法 有 语义 分 割 法 、 实 例 分 割 法 等 。 语义 分 制 法 是 指 为 输入 图 像 中 每 个 像素 点 标记 相应 类 别 的 图 像 
分 割 方法 ; 实例 分 割 法 是 指 为 输入 图 像 分 割 出 其 中 每 个 目标 物体 实例 的 图 像 分 割 方法 。 对 于 输入 
图 像 中 属于 同一 类 别 的 多 个 目标 物体 实例 , 实例 分 割 法 需要 将 它们 区 分 开 , 而 语义 分 割 则 不 需要 
区 分 。 下 面 介绍 三 个 典型 模型 ， 其 中 FCN 和 SegNet 属于 图 像 语 义 分 割 模型 ，Mask R-CNN 属于 
实例 分 割 模 型 。 


1. FCN 模型 


含有 全 连接 层 的 CNN 模型 对 输入 图 像 的 尺寸 有 严格 要 求 。 一 旦 输入 图 像 尺 十 有 变化 ， 全 连 
接 层 的 输入 神经 元 个 数 就 会 变化 , 这 会 造成 全 连接 层 输 入 尺寸 不 匹配 的 问题 。 如 果 将 全 连接 层 替 
换 为 卷 积 层 ， 即 采用 全 卷 积 网 络 ， 则 输入 图 像 的 大 小 可 以 为 任意 尺寸 。 FCN (Fully Convolutional 
Network ) 是 最 早 将 深度 学 习 用 于 图 像 语义 分 割 的 经 典 模 型 ， 该 模型 没有 全 连接 层 ， 输 入 图 像 的 
尺寸 是 可 变 的 。 如 图 9-23 所 示 ，FCN 模型 将 多 个 卷 积 层 输出 的 结果 再 反 卷 积 ， 就 得 到 了 原始 图 
像 的 语义 分 割 结果 。FCN 模型 将 不 同 卷 积 层 的 输出 相 加 ， 使 得 不 同 尺 度 下 的 图 像 信息 可 以 融合 。 
为 保持 不 同 层 输出 的 特征 图 尺寸 统一 ， 需 要 适当 地 加 以 反 卷 积 操作 。 在 具体 的 模型 训练 过 程 中 ， 
我 们 可 以 采用 分 阶段 训练 方法 , 即 不 同 尺 度 对 应 的 反 卷 积 层 的 参数 依次 被 训练 , 这 样 可 以 降低 模 
型 训练 的 难度 。 


图 9-23 ”基于 FCN 的 语义 分 割 模型 的 基本 框架 ( 另 见 彩 搬 ) 


2. SegNet 模型 
SegNet 模 型 的 整体 架构 类 似 于 FCN 模型 ， 即 基于 编码 器 -解码 器 的 架构 ， 其 中 卷 积 层 为 编码 
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器 ， 上 采样 和 反 卷 积 层 为 解码 器 。 以 FCN 模型 架构 为 基础 ,， SegNet 模型 做 了 进一步 优化 。SegNet 
不 同 于 FCN 模型 的 细节 在 于 : 


口 解码 器 在 上 采样 时 ， 利 用 了 编码 器 中 池 化 时 输入 像素 点 的 位 置信 息 ， 这 使 得 解码 器 中 待 
分 割 物体 的 边界 更 清晰 ; 
口 采用 BN 层 加 速 训练 ; 
口 在 解码 器 中 ， 卷 积 时 没有 偏 置 参数 ， 没 有 ReLU 非 线 性 激活 层 ; 
口 在 编码 器 和 解码 器 中 采用 7x7 的 大 卷 积 核 ， 使 得 更 上 层 的 输出 所 用 到 的 信息 更 多 。 

3. Mask R-CNN 模型 

MaskR-CNN 模型 是 对 FasterR-CNN 模型 的 拓展 , 用 于 图 像 中 的 实例 分 割 ， 该 模型 的 整体 架 
构 类 似 于 图 9-20。 我 们 已 在 图 9-20 中 看 到 ，Faster R-CNN 的 输出 有 两 个 分 支 ， 其 中 一 个 是 预测 
每 个 候选 框 类 别 的 class 分 支 ， 男 一 个 是 预测 每 个 候选 框 尺寸 和 位 置 的 bbox 分 支 。Mask R-CNN 
在 Faster R-CNN 的 基础 上 又 添加 了 一 个 mask 分 支 ， 它 采用 FCN 对 每 个 候选 框 内 的 每 个 像素 做 
标签 预测 ， 即 实例 分 割 。Mask 分 支 首先 会 根据 Faster R-CNN 中 的 class 分 支 确定 该 候选 框 内 的 物 
体 类 别 ， 然 后 再 判断 该 候选 框 内 的 每 个 像素 是 否 属于 该 类 别 (本 质 上 是 像素 级 的 二 分 类 问题 )。 

除了 物体 检测 和 网 像 分 割 外 ，CNN 还 可 以 用 于 图 像 处 理 领 域 的 其 他 任务 ， 如 关键 点 检测 、 
图 像 标题 生成 、 目 标 跟踪 等 。 为 了 更 好 地 应 用 于 不 同 任务 ，CNN 模型 需要 和 其 他 图 像 处 理 算法 
相 结 合 。 在 这 些 过 程 中 ， 新 的 一 些 层 和 网 络 也 被 发 明 并 引入 到 CNN 模型 中 ， 比 如 物体 检测 中 的 
ROI 池 化 层 和 RPN 网 络 。 


9.4 小 结 


CNN 模型 是 深度 学 习 中 非常 重要 的 一 类 模型 ， 它 适用 于 非 结 构 化 数据 的 特征 提取 。CNN 模 
型 包含 卷 积 层 、 全 连接 层 、Dropout 层 、 池 化 层 、BN 层 等 多 种 类 型 的 层 ， 常 用 的 CNN 模型 包括 
AlexNet、Inception 、VGG、ResNet 等 。 这 些 模型 中 ，Inception module 和 ResNet module 等 模块 
的 设计 蕴含 了 发 明 者 丰富 的 经 验 知 识 , 考虑 了 精度 和 速度 之 间 的 平衡 , 值得 我 们 在 今后 的 模型 设 
计 中 参考 。TensorFlow-Slim 是 基于 TensorFlow 原生 API 封装 的 一 套 Python 库 ， 它 提供 了 数据 集 
处 理 、 模 型 定义 、 模 型 训练 和 推理 在 内 的 诸多 功能 , 方便 算法 开发 者 快速 实现 各 种 神经 网 络 。 除 
了 图 像 分 类 外 , CNN 模型 还 可 以 用 于 其 他 计算 机 视觉 任务 , 如 物体 检测 、 图 像 分 割 等 。 理解 CNN 
模型 的 经 典 设计 ， 有 助 于 针对 特定 的 问题 开发 专用 的 模型 变种 。 


GAN 模型 


机 器 学 习 和 深度 学 习 领 域 不 仅 有 判别 模型 , 而且 有 生成 模型 。 判 别 模型 与 生成 模型 的 区 别 在 
于 : 判别 模型 的 目标 是 得 到 具有 不 同 标签 的 数据 之 间 的 边界 , 使 得 机 器 能 够 找到 不 同 数据 分 布 之 
间 的 不 同 ; 而 生成 模型 的 目标 是 得 到 每 个 标签 所 对 应 的 数据 分 布 , 使 得 机 器 可 以 理解 如 何 得 到 或 
修改 数据 的 分 布 。 判 别 模型 在 分 类 、 回 归 等 问题 上 往往 很 实用 ， 而 生成 模型 更 为 复杂 ， 它 期 望 为 
机 器 赋予 近乎 人 类 的 理解 力 和 创造 力 。 上 一 章 介 绍 的 CNN 模型 属于 判别 模型 ， 本 章 将 介绍 一 种 
生成 模型 一 一 GAN (Generative Adversarial Network， 生 成 对 抗 网 络 )。 该 模型 可 以 利用 深度 学 习 
强大 的 非 线性 拟 合 能 力 模拟 真实 的 数据 分 布 ， 从 而 生成 绘画 、 照 片 、 音 乐 等 类 型 的 逼真 数据 。 


10.1 原理 、 特 点 及 应 用 


我 们 首先 回顾 一 下 机 器 学 习 中 的 两 种 模型 : 判别 模型 (Discriminative Model ) 和 生成 模型 
( Generative Model )。 在 机 央 学 习 问 题 中 ， 假 设 训练 数 据 的 特征 集 为 下 s 有 R"“， 对 应 的 标签 集 为 
ye R”"， 特 征 维 度 为 x， 训练 数据 样本 个 数 为 m， 模 型 参数 为 2。 对 条 件 概率 P(y|X;0) 直接 建 模 
而 得 到 的 模型 就 是 判别 模型 。SVM ( Support Vector Machine )、LR ( Logistic Regression ) 等 都 属 
于 判别 模型 。 以 分 类 问题 为 例 ， 判别 模型 不 关注 每 个 类 别 所 对 应 的 数据 分 布 形式 ,而 直接 在 训练 
数据 中 寻找 最 优 的 分 类 面 。 与 判别 模型 不 同 ， 生 成 模型 是 指 对 训练 数据 特征 和 标签 的 联合 概率 
P(Xy;0) 建 模 而 得 到 的 模型 。 通 过 生成 模型 ， 可 以 知道 每 个 类 别 所 对 应 的 数据 分 布 情况 。 生 成 模 
型 是 无 监督 学 习 和 半 监 督学 习 中 的 重要 方法 。 生 成 模型 有 助 于 对 更 复杂 现象 建 模 , 促进 更 高 级 人 
工 智 能 的 探索 。 

常用 的 生成 模型 主要 包括 两 大 类 : 基于 显 式 概率 密度 函数 的 生成 模型 和 基于 隐 式 概率 密度 函 
数 的 生成 模型 。 前 者 要 求 我 们 首先 建立 所 需 拟 合 的 数据 分 布 的 概率 密度 函数 , 然后 用 有 限 的 样本 
不 断 训练 该 模型 。 假 设 该 模型 G 的 目标 优化 函数 为 ElogG(x|0)， 其 最 优 参 数 为 ! =argmaxo 
pl0gG(x|0)。 当 该 目标 优化 函数 可 解 时 ， 我 们 可 以 直接 用 优化 算法 求解 该 模型 的 最 优 和 参数。 
常见 的 此 类 模型 有 FVBN ( Fully Visible Belief Network ) 等 。 当 它 不 可 解 时 ， 我 们 需要 用 近似 的 
方法 得 到 该 模型 的 最 优 参数 。 变 分 近似 ( Variational Approximations ) 和 马尔 可 夫 蒙 特 卡 洛 ( Markov 
Chain Monte Carlo， 简 称 MCMC ) 算法 是 常用 的 两 种 近似 算法 。 在 变 分 近似 法 中 , 我 们 首先 得 到 
原始 目标 优化 函数 的 一 个 可 解 的 下 限 函 数 , 然后 通过 求解 该 下 限 函 数 的 最 大 值 间接 得 到 原始 目标 
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优化 函数 的 最 大 值 ， 其 代表 模型 为 VAE ( Variational AutoEncoder )。 然 而 ， 下限 函数 带 来 的 近似 
有 可 能 会 使 得 生成 模型 所 拟 合 的 数据 分 布 与 真实 的 数据 分 布 间 存在 偏差 。 在 马尔 可 夫 蒙 特 卡 洛 算 
法 中 , 我 们 使 用 马尔 可 夫 链 不 断 产 生 采 样 以 获得 新 数据 ,并 使 得 经 过 足够 多 的 迭代 后 采样 得 到 的 
数据 分 布 能 够 逼近 真实 的 数据 分 布 ， 其 代表 模型 为 玻 尔 效 曼 机 。MCMC 方法 的 计算 复杂 度 通 常 
比较 高 ,并 随 着 数据 维度 的 增加 而 增加 。 不同 于 基于 显 式 概 率 密度 函数 的 生成 模型 ,基于 隐 式 概 
率 密度 函数 的 生成 模型 可 以 通过 直接 采样 的 方式 训练 模型 参数 , 而 不 需要 提前 对 真实 数据 的 分 布 
建立 模型 。 与 围绕 前 者 的 研究 成 果 相 比 , 业界 对 这 类 模型 的 研究 还 不 是 很 深入 ,因此 这 类 模型 并 
不 多 见 。 在 这 类 模型 中 , 一 般 常 用 的 采样 方式 基于 马尔 可 夫 链 实现 , 但 其 计算 复杂 度 会 随 训 练 数 
据 维度 的 增加 而 增加 。GAN 是 一 种 全 新 的 基于 隐 式 概率 密度 函数 的 生成 模型 。 下 面 分 析 GAN 模 
型 的 原理 和 特点 ， 并 介绍 其 应 用 。 


10.1.1 原理 


为 了 解决 已 有 生成 模型 的 上 述 缺 点 ， 加 拿 大 蒙特 利 尔 大 学 Yoshua Bengio 教授 门下 的 Ian 
Goodfellow 等 人 于 2014 年 提出 了 GAN 模型 。 如 图 10-1 所 示 ， 该 模型 主要 由 两 个 子 模型 一 一 生 
成 器 G 和 判别 器 D 组 成 。G 的 输入 为 随机 噪声 向 量 ,， 输 出 为 与 真实 数据 维度 相同 的 数据 。D 的 
输入 为 真实 数据 或 者 G 生成 的 数据 ， 输 出 为 其 对 输入 数据 的 分 类 ( 用 来 判断 输入 数据 是 否 为 真 
实数 据 )。G 的 目标 是 使 其 生成 的 数据 与 真实 数据 无 限 接近 ， 而 刀 的 目标 是 尽 可 能 分 辨 出 输入 数 
据 的 真 伪 ， 即 将 G 生成 的 数据 和 真实 数据 区 分 开 。 因 此 ，G 和 D 的 优化 目标 相互 对 立 ，GAN 模 
型 的 优化 过 程 就 是 G 和 相互 对 抗 的 过 程 ，GAN 的 名 字 也 由 此 而 来 。 


图 10-1 GAN 的 原理 框图 


根据 上 述 对 抗 过 程 ，GAN 模型 的 目标 优化 问题 可 以 表示 为 : 
minc maxp VD, G)= Evry [ log DY) | +E, pi [log(l — D(G(z))) ] 


其 中 , 刀 输 出 值 的 区 间 为 [0,1]。D 的 输入 数据 越 接近 真实 数据 ， 其 输出 值 越 接近 1。 在 实际 中 ， 
我 们 采用 多 层 卷 积 神经 网 络 或 者 深度 学 习 模 型 拟 合生 成 器 G 和 判别 器 万 ,通过 迭代 的 方式 不 断 优 
化 目标 函数 VD, G)。 为 了 使 DD 尽 可 能 地 保持 在 最 优 解 状 态 ， 并且 使 G 的 参数 逐步 变化 ,我 们 在 
GAN 模型 优化 过 程 的 每 一 次 迭代 中 先 训练 大 次 判别 器 D， 再 训练 一 次 生成 器 G。 假 设 每 次 批 数 
据 大 小 为 m， 总 的 迭代 次 数 为 N， 那 么 训练 GAN 模型 的 具体 步骤 如 下 。 
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(1) 训练 判别 器 。 从 噪声 输入 向 量 z 的 分 布 p(s) 中 随机 采样 m 个 样本 组 成 一 组 用 于 输入 到 生 
成 器 的 批 训练 数据 {2 …,z"”}， 从 真实 数据 分 布 pawa(x) 中 随机 采样 m 个 样本 组 成 一 组 用 于 输入 
到 判别 器 的 批 训练 数据 {x,…,x 中 }。 计 算 判别 器 的 损失 函数 在 当前 的 批 训练 数据 上 的 平均 什 
Zr 二 [logp(x 和 + logtl- D(G(z")] ,然后 求解 对 判别 器 参数 & 的 导数 ,用 梯度 上 逢 法 
更 新 &。 

(2) 重复 执行 步骤 (0)， 共 计 执 行 大 次 。 

(3) 训练 生成 器 。 从 p.(z) 中 随机 采样 得 到 一 组 批 训练 数据 fc0,…, zy}。 计 算 生成 器 的 损失 函 
数 在 当前 的 批 训练 数据 上 的 平均 值 Lo = 一 忆 ”,log(1- D(G(z0) ， 然 后 求解 L6 对 生成 器 参数 4 
的 导数 ， 用 梯度 下 降 法 更 新 &。 

(4) 重复 执行 步骤 (1) ~ 步骤 (3)， 共 计 执 行 N 次 。 

对 于 判别 器 而 言 ， 需 要 被 最 优化 的 目标 函数 可 以 被 描述 为 : 

V,(D,G) =E,,, [bgbdr) +E.,,(, logd4-D(GCD) 
=| pi (x)1og(D(x)dx + | p(s)1log( — D(g(z)))dz 
=| [pas (x)1og(D(x) + p(x)1og(— D(x)) | dx 
其 中 ，paaGo 和 pslx) 分 别 用 于 表示 真实 数据 和 生成 数据 的 概率 分 布 。 我 们 可 以 将 DCo) 看 作 一 个 


四 三 关 人 和 d 有 CD,O) 1 1 A 4 旦 4 炒 Paata (X) 
不 d(D(x)) he re Pe 0 Pasta (X) + ps (Xx) 


为 DO 的 最 优 解 。 当 D(x) = D*(x) 时 ，GAN 模型 的 目标 函数 变 为 minsV(D,G*) = 


log Pause(X*) |+ |1og 从 (中 | 该 目标 耳 数 可 进一步 被 表示 为 mineV(D,G*) 
Daaa (X) + ps (X) 9 Paaa (X) + ps (X) 


p ata 二 p 忆 ata 十 p 
-log( P+KL (Paaa || = +KL(p, || | = 一 log(4)+2JSD(pass | Ps) 。 其 中 ，KZLQlby) 和 


JSD(xlly) 分 别 表示 概率 分 布 x 和 yy 之 间 的 KL 散 度 (或 者 相对 炉 ) 和 JS 散 度 。KL 散 度 和 JS 散 度 
均 可 用 于 描述 两 个 分 布 之 间 的 差别 ， 其 值 非 负 。 当 概率 分 布 x 和 y 相 同时 ，KL 散 度 和 JS 散 度 为 
0， 此 时 V(D, G*) 取得 最 小 值 。 因 此 ， 当 生成 器 产生 的 数据 的 概率 分 布 与 真实 数据 的 概率 分 布 相 
同时 ， 其 目标 函数 达到 最 小 值 ， 模 型 参数 为 最 优 参 数 。 


10.1.2 ”特点 


为 GAN 模型 并 没有 对 真实 数据 的 分 布 做 出 任何 假设 ,也 没有 对 模型 本 身 的 形式 加 以 太 多 
约束 ， 所 以 它 的 自由 度 很 高 ， 可 以 用 于 逼近 任何 概率 分 布 ， 这 是 GAN 模型 区 别 于 其 他 生成 模型 
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最 重要 的 特点 。 基 于 深度 神经 网 络 模 型 的 生成 器 和 判别 器 的 表达 能 力 很 章 ， 这 使 得 GAN 非常 适 
合生 成 非 结 构 化 的 高 维 数据 ， 如 高 分 辨 率 图 像 等 。 

与 基于 变 分 法 的 生成 模型 (如 VAE ) 相 比 ，GAN 模型 没有 引入 近似 条 件 和 额外 假设 ， 因 此 
能 够 保证 生成 的 效果 更 好 。 以 图 像 生成 为 例 , GAN 生成 的 图 像 通 常 比 VAE 生成 的 图 像 更 加 清晰 。 
与 基于 马尔 可 夫 链 算法 的 生成 模型 相 比 ，GAN 模型 的 训练 过 程 不 需要 依赖 马尔 可 夫 链 采样 ， 因 
此 计算 复杂 度 不 高 , 训练 速度 较 快 ， 能 够 生成 数据 的 维度 更 高 。 另 外 , 以 FVBN 为 代表 的 一 些 生 
成 模型 必须 串 行 地 生成 数据 在 各 个 维度 上 的 值 ， 计 算 速 度 受 限 ， 而 GAN 模型 的 训练 和 推理 计算 
都 很 容易 并 行 化 ， 从 而 能 够 充分 利用 GPU 等 高 性 能 计算 设备 加 速 计算 。 

可 以 看 出 ，GAN 模型 有 很 多 优点 。 然 而 ， 原 始 的 GAN 模型 也 并 不 是 完美 无 缺 的 。 比 如 ,在 
其 目标 函数 中 , 当 生 成 器 生成 的 数据 和 真实 数据 的 分 布 之 间 没 有 交集 时 , JS 散 度 为 常数 。 此 时 如 
果 判 别 需 也 为 最 优 ， 就 会 出 现 梯 度 消失 现象 ， 继 而 难以 根据 该 目标 函数 更 新 生成 需 模 型 的 参数 。 
另外 ,由 于 灵活 性 太 高 ，GAN 模型 经 常会 出 现 模 式 朋 演 ( mode collapse ) 问题 ， 即 生成 器 和 判别 
器 的 参数 优化 过 程 停滞 不 前 、 无 法 收敛 甚至 退化 。 这 使 得 GAN 中 生成 器 和 判别 器 这 两 个 矛盾 体 
不 易 同 时 达到 最 优 ( 即 达到 纳什 均衡 )。 不 过 ， 最 新 的 GAN 模型 变种 ， 如 WGAN ( Wasserstein 
GAN )、minibatch GAN 等 已 经 较 好 地 解决 了 这 些 问 题 。GAN 模型 还 在 快速 发 展演 进 中 ， 它 在 很 
多 实际 应 用 中 的 表现 已 经 超越 了 绝 大 多 数 生成 模型 。 


10.1.3 ”应 用 


在 很 多 图 像 应 用 中 ， 我 们 期 望 得 到 逼真 的 图 像 数据 。GAN 模型 的 生成 器 和 判别 器 之 间 的 博 
弈 使 得 生成 天 的 输出 无 限 逼 近 真 实数 据 的 分 布 , 它 可 以 使 图 像 的 生成 效果 更 好 。 在 半 监 督学 习 和 
强化 学 习 等 其 他 学 习 范 式 或 者 框架 中 ， 我 们 也 可 以 利用 GAN 强大 的 数据 生成 能 力 获得 更 好 的 训 
练 效果 。 此 外 ， 近 年 来 GAN 模型 也 开始 应 用 于 自然 语言 处 理 等 其 他 领域 。 


口 图 像 翻 译 。 这 是 指 文字 到 图 像 的 转换 ， 或 不 同 风 格 图 像 之 间 的 转换 。 文 字 到 图 像 的 转换 
是 指 根据 一 段 文 字 生成 其 所 描述 的 一 幅 图 像 。 它 包含 两 个 方面 ， 一 是 抽取 文字 所 描述 的 
语义 特征 ， 二 是 根据 这 些 语义 特征 生成 一 幅 相 应 的 图 像 。 在 用 于 文字 到 图 像 转换 的 GAN 
模型 中 ， 生 成 需 的 输入 包括 噪声 向 量 和 文字 的 编码 向 量 ， 这 两 个 向 量 同 时 输入 到 生成 需 
中 用 于 图 像 生成 ， 使 得 图 像 的 语义 与 相应 文字 的 语义 产生 关联 。 判 别 器 不 仅 需要 判断 图 
像 看 起 来 是 否 真实 ， 而 且 需 要 判断 图 像 是 否 与 文字 编码 向 量 相互 对 应 。 除 了 将 文字 转换 
为 图 像 外 ,我们 还 可 以 将 图 像 在 不 同 风格 之 间 进 行 转换 。 例 如 ,输入 一 张 手 工 画 的 草 
图 ， 输 出 该 草图 语义 所 表达 的 真实 的 图 像 ; 或 者 ， 输 入 一 张 真实 的 照片 ， 输 出 照片 融入 
某 位 画家 风格 的 图 像 。 在 图 像 风格 转换 时 ， 我 们 需要 保证 语义 的 完整 性 ， 一 般 不 会 修改 
图 像 中 的 某 些 语义 ( 如 删除 图 像 中 的 一 个 具体 物体 ) 。 
口 图 像 编辑 。 不 同 于 不 改变 语义 的 图 像 翻译 ， 图 像 编 辑 是 指 对 图 像 中 指定 的 某 些 内 容 进行 
语义 上 的 修改 。 在 GAN 模型 中 ， 我 们 可 以 通过 改变 生成 器 输入 向 量 中 的 某 些 维度 的 值 来 
控制 生成 器 输出 图 像 的 局 部 语义 信息 。 比 如 对 于 人 脸 图 像 ， 可 以 通过 改变 输入 向 量 中 的 
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口 


口 


口 


某 些 值 来 控制 所 生成 人 脸 的 脸型 、 发 型 、 表 情 等。 为 了 使 用 户 可 以 编辑 模型 的 隐藏 向 
量 ， 进 而 控制 图 像 的 语义 信息 ， 我 们 通常 需要 将 编码 器 与 GAN 模型 结合 使 用 。 例 如 ， 我 
们 可 以 在 训练 完 GAN 模 型 之 后 ， 再 训练 两 个 编码 器 。 这 两 个 编码 器 分 别 将 待 编辑 的 图 像 
转换 为 一 个 噪声 向 量 和 一 个 隐藏 向 量 。 隐 藏 向 量 的 每 个 维度 上 的 值 都 表示 一 些 高 级 语义 
特性 。 我 们 将 这 两 个 向 量 同时 作为 GAN 模型 后 成 器 的 输入 ， 就 可 以 通过 修改 隐藏 向 量 来 
控制 GAN 模型 的 生成 器 所 生成 图 像 的 某 些 局 部 语义 信息 。 

图 像 超 分 辨 率 。 图 像 超 分 辩 率 是 计算 机 视觉 和 图 像 处理 领 域 的 一 个 重要 研究 方向 ， 其 核 
心目 标 是 根据 低 分 辩 率 图 像 生成 对 应 的 高 分 辩 率 图 像 。 将 深度 学 习 应 用 于 图 像 超 分 辩 率 
时 ， 模 型 的 输入 为 低 分 辩 率 网 像 ， 输 出 为 相应 的 高 分 辩 率 图 像 ， 损 失 孙 数 为 输出 图 像 和 
真实 高 分 辩 率 图 像 之 间 的 像素 级 MSE ( Mean Square Error ) 。 因 为 高 分 辩 率 的 图 像 具 有 
超 高 维度 ， 而 超 高 维 空间 中 图 像 数据 的 分 布 非常 稀 鸣 ， 所 以 仅 靠 MSE 训练 出 的 模型 所 生 
成 的 图 像 在 某 些 细节 处 看 起 来 并 不 真实 。 由 于 GAN 对 真实 数据 的 分 布 具有 更 好 的 拟 合 ， 
它 可 以 用 于 生成 更 加 真实 的 高 分 辩 率 网 像 。 在 用 于 图 像 超 分 辩 率 的 GAN 模型 中 ， 生 成 器 
的 输入 为 低 分 辩 率 图 像 ， 输 出 为 高 分 辩 率 网 像 ;判别 需 的 输入 为 真实 的 高 分 辩 率 图 像 和 
生成 的 高 分 辩 率 网 像 。 我 们 可 以 将 图 像 超 分 辩 率 方面 的 经 典 损失 函数 引入 到 GAN 模型 的 
训练 中 ,使 得 生成 的 图 像 在 内 容 方 面 的 信息 丢失 最 小 。 

半 监 督学 习 。 半 监督 学 习 是 指 同 时 利用 带 标签 的 数据 和 不 带 标签 的 数据 进行 模型 训练 的 
机 器 学 习 方 法 。 传 统 的 深度 学 习 模型 特别 依赖 大 量 带 标签 的 数据 。 然 而 在 实际 应 用 中 ， 
获得 大 量 准确 的 带 标签 数据 的 成 本 往往 很 高 。 因 此 ， 我 们 通常 采用 半 监 督学 习 的 方式 来 
训练 深度 学 习 模 型 。GAN 模型 的 生成 器 能 产生 逼近 真实 的 数据 ， 这 些 数据 可 以 作为 不 带 
标签 的 数据 用 于 半 监 督学 习 。 例 如 ， 对 于 一 个 玉 分 类 问题 ( 样本 所 属 类 别 数 为 1, 2,…, 天 )， 
我 们 可 以 将 GAN 模型 生成 器 产生 的 数据 看 作 第 KE+1 类 ， 并 将 其 作为 训练 数据 的 一 部 分 。 
这 样 ， 原 始 的 天 分 类 问题 转变 为 K+1 分 类 问题 ， 训 练 数据 得 到 了 扩充 ， 这 使 得 模型 的 训 
练 更 加 容易 。 该 分 类 模型 的 最 优 参数 为 0=aremaxoV=argmaxo(V+V)， 其 中 =Ey yy (xX;y) 
[logPOhe py KR) | 和 Vi=By px, 切 [1-logPO=K+HI ] +E.G [logPO=K+1x) ] 分 别 表 
示 生 成 数据 (无 标签 的 数据 ) 和 原始 带 标签 的 数据 各 自 对 应 的 目标 函数 。 将 这 两 类 目标 
函数 结合 起 来 优化 ， 可 以 实现 半 监 督学 习 。 
基于 GAN 的 强化 学 习 。 我 们 已 经 在 8.2 节 中 了 解 过 强化 学 习 。 在 强化 学 习 中 ， 有 时 我 们 
需要 对 环境 进行 建 模 以 使 得 智能 体能 够 更 好 地 与 环境 交互 。GAN 模型 可 用 于 对 环境 建 
模 ， 环 境 模型 的 输入 是 智能 体 的 动作 ， 输 出 是 环境 的 状态 信息 。 智 能 体 在 真正 执行 动作 
之 前 ， 可 以 先 尝试 给 内 部 的 环境 模型 输入 不 同 的 动作 信号 ， 选 取 能 够 获得 最 理想 状态 信 
息 的 动作 。 这 样 可 以 保证 智能 体 在 与 环境 真正 交互 的 过 程 中 执行 的 动作 更 加 准确 。 另 
外 ， 传 统 的 强化 学 习 大 多 属于 单 任务 系统 ， 智 能 体 只 能 通过 奖励 函数 一 直 执 行 一 个 单 
的 、 不 变 的 任务 。OpenAI 的 研究 员 David Held 等 人 提出 使 用 GAN 为 智能 体 持 续 地 生成 
难度 适宜 的 多 个 目标 任务 。 这 样 智 能 体 在 与 环境 交互 的 过 程 中 就 能 够 学 习 到 更 多 知识 ， 
不 需要 太 多 的 环境 先 验 知识 就 可 以 执行 多 个 目标 任务 。 


J 
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当前 GAN 的 研究 非常 火热 ， 很 多 新 的 应 用 也 在 不 断 出 现 ， 如 图 像 去 模糊 等 。 类 似 于 图 像 生 
成 ，GAN 模型 还 可 以 实现 文本 和 对 话 生 成 等 ,这 使 得 GAN 可 以 用 于 自然 语言 处 理 领域 。 总 体 而 
言 ，GAN 模型 作为 一 种 通用 的 生成 模型 ， 可 以 与 人 工 智能 的 很 多 研究 方向 结合 ， 产 生 很 多 新 型 
可 应 用 。 


10.2 ”GAN 模型 的 改进 


自 2014 年 GAN 模型 被 首次 提出 之 后 , 人 研究 者 们 很 快 发 现 它 在 实际 应 用 中 存在 很 多 问题 , 如 
生成 图 像 的 分 辨 率 不 高 、 学 习 的 特征 不 可 控 、 训 练 过 程 不 稳定 等 。 为 了 解决 这 些 问题 , 研究 者 们 
对 原始 的 GAN 模型 进行 了 持续 不 断 的 改进 ， 比 如 修改 或 增加 生成 器 和 判别 如 的 输入 信息 、 重 新 
设计 生成 器 和 判别 器 的 模型 架构 、 改 进 生 成 咒 和 判别 器 的 最 优化 目标 函数 等 。 下 面 我 们 介绍 近 两 
三 年 来 GAN 发 展 和 演变 过 程 中 出 现 的 一 些 改进 版 本 。 因 为 GAN 模型 在 图 像 方面 的 应 用 相对 成 
熟 ， 所 以 大 部 分 改进 后 的 模型 都 首先 用 于 解决 图 像 类 应 用 面临 的 问题 。 尽管 如 此 ,这 些 改进 思想 
大 多 具有 普 适 意义 , 可 以 较 容 易 地 迁移 到 其 他 应 用 中 。 同时 , 这 些 模型 的 设计 思想 可 以 相互 结合 ， 
形成 更 强大 的 GAN 模型 。 


We 


beam) 


10.2.1 CGAN 模 型 


原始 的 GAN 框架 不 需要 对 数据 的 分 布 做 假设 ， 而 是 直接 采用 多 层 神经 网 络 模拟 数据 分 布 。 
这 种 训练 方式 太 过 自由 , 没有 任何 约束 条 件 。 在 实际 应 用 中 ,数据 标签 或 其 他 辅助 数据 可 被 用 作 
训练 GAN 的 约束 条 件 ， 这 些 约 束 条 件 有 助 于 引导 生成 模型 对 数据 分 布 的 拟 合 。 加 拿 大 蒙特 利 尔 
大 学 的 Mehdi Mirza 等 人 提出 了 CGAN ( Conditional GAN， 条 件 生 成 对 抗 网 络 ) 模型 ， 该 模型 在 
判别 器 和 生成 器 的 输入 中 分 别 引 入 了 一 个 条 件 向 量 y, 用 于 约束 生成 图 像 的 某 些 属性 ( 如 标签 等 )。 
CGAN 的 原理 框图 如 图 10-2 所 示 ,其 最 优化 问题 可 被 描述 为 minemaxpVc(D,G)=E yl logD(xly) ] 
+E, pe [ log(1-D(G(zly))) J], 


D(xly) 


图 10-2 CGAN 的 原理 框图 


我 们 以 手写 体 数字 生成 模型 为 例 说 明 CGAN 的 应 用 场景 。 当 希望 控制 生成 手写 体 数 字 的 值 
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时 ， 可 以 在 生成 器 和 判别 器 的 输入 中 分 别 引入 一 个 One-Hot 编码 的 10 维 条 件 向 量 y 作为 标签 约 
束 。 具体 实现 方式 为 : 在 生成 器 中 ， 服 从 某 一 分 布 的 100 维 噪声 向 量 和 标签 约束 分别 经 过 一 
层 隐藏 层 变 换 后 ， 同 时 输入 到 下 一 隐藏 层 中 ;在 判别 器 中 ， 和 输入 图 像 ( 真实 图 像 x 或 生成 图 像 
G(z 凡 和 标签 约束 上 也 分 别 经 过 各 自 的 隐藏 层 变 换 , 然后 合并 后 输入 到 sigmoid 层 。 在 此 应 用 场景 
下 ，CGAN 模 型 中 的 条 件 向 量 还 可 用 于 表示 其 他 属性 ， 如 生成 的 手写 体 数字 的 笔迹 宽度 等 。 

CGAN 模型 通过 引入 条 件 向 量 , 实现 了 对 生成 异型 训练 过 程 的 引导 。 当 模型 训练 完成 后 , 我 
们 可 以 通过 改变 条 件 向 量 中 某 些 维度 上 的 数值 来 控制 生成 的 数据 。 


10.2.2 LAPGAN 模 型 


原始 的 GAN 模型 只 适用 于 生成 分 辩 率 较 低 的 图 像 。 为 了 提升 生成 图 像 的 分 辨 率 ， 纽 约 大 学 
的 Emily Denton 等 人 提出 了 LAPGAN ( Laplacian Pyramid GAN， 拉 普 拉 斯 金字 塔 生 成 式 对 抗 网 
络 ) 模型 。 该 模型 的 主要 特点 是 将 图 像 的 拉 普 拉 斯 金字 塔 同 GAN 结合 起 来 ， 以 多 阶段 图 像 生成 
的 方式 间接 地 实现 高 分 状 率 图 像 的 生成 。 所 谓 图 像 金字 塔 , 是 指 由 原始 图 像 ( 或 原始 图 像 的 变换 ) 
及 其 所 对 应 的 一 系列 低 分 辩 率 图 像 组 成 的 集合 。 如 果 将 这 一 系列 分 辩 率 由 低 到 高 的 图 像 从 上 到 下 
排列 ， 就 形成 了 金字 塔 形状 。 高 斯 金字 塔 是 一 种 经 典 的 图 像 金 字 塔 结构 ， 其 主要 特征 是 : 在 每 个 
图 像 降 采样 过 程 前 都 先进 行 高 斯 模糊 。 如 图 10-3 所 示 ，{10…, 五 …, Ig} 为 图 像 的 高 斯 金字 塔 ， 其 
中 = 0,…, 代表 不 同 的 尺度 。h 为 原始 图 像 ， 后 续 每 幅 图 像 .是 由 上 一 幅 图 像 IL | 经 过 高 斯 模 
糊 和 降 采 样 后 得 到 的 ， 其 大 小 为 1 的 四 分 之 一 。 拉 普 拉 斯 金字 塔 是 用 于 描述 高 斯 金字 塔 中 丢失 
的 高 频 信息 的 一 种 图 像 金字 塔 结构 。 在 图 10-3 中 , 经 过 升 采样 后 与 Li | 之 间 的 差 Li_ 1 表示 拉 普 
拉 斯 金字 塔 在 第 -1 尺度 下 的 图 像 ， 该 图 像 代表 天 1 降 采 样 过 程 中 损失 的 高 频 信 息 。 对 于 第 天 尺 
度 ，Lx=Ix。 从 工 开 始 ， 由 拉 普 拉 斯 金字 塔 可 以 重 构 出 原始 图 像 。 


EE 


We 


图 10-3 ”高 斯 金字 塔 和 拉 普 拉 斯 金字 塔 示 意图 ( 男 见 彩 插 


LAPGAN 的 原理 如 图 10-4 所 示 。 在 LAPGAN 中 , 每 个 尺度 下 都 有 一 个 生成 器 , 用 于 生成 该 
尺度 下 的 拉 普 拉 斯 金字 塔 图 像 。 例 如 , 在 天 尺度 下 ， 噪 声 向 量 zx 输入 到 生成 器 Gx 中 得 到 生成 图 
像 Jk。 在 K-1 尺度 下 ,生成 器 Gu- 的 输入 为 噪声 向 量 zx_1， 以 及 Jk 升 采样 后 得 到 的 图 像 Jx (类 
似 于 CGAN 的 做 法 , 该 图 像 作 为 条 件 变 量 引导 Gx_1 的 输出 ), 根据 拉 普 拉 斯 金字 塔 图 像 和 高 斯 金 
字 塔 图 像 之 间 的 关系 ，Gx_1 的 输出 与 Tk 相 加 后 即 可 得 到 K-1 尺度 下 的 生成 图 像 Jx_1。 以 此 类 推 ， 
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该 模型 最 后 通过 生成 器 Go 得 到 最 终生 成 的 图 像 及 。 由 此 可 以 看 出 ，LAPGAN 通过 多 组 生成 器 逐 
渐 实 现 高 分 辨 率 图 像 的 生成 。 这 本 质 上 是 一 种 逐步 渐进 的 约束 方式 ， 它 解决 了 原始 GAN 模型 太 
过 自由 而 难以 控制 的 问题 。 


图 10-4 LAPGAN 的 原理 框图 ( 男 见 彩 插 


— 


10.2.3” DCGAN 模 型 


在 原始 的 GAN 模型 中 ， 生 成 器 和 判别 器 都 是 浅 层 模型 。 为 了 生成 分 辩 率 更 高 的 图 像 ， 我 们 
需要 更 深 的 模型 。Indico 公司 的 Alec Radford 等 人 于 2016 年 提出 了 DCGAN ( Deep Convolutional 
GAN, 深度 卷 积 对 抗 生 成 网 络 ) 模型 。 该 模型 中 判别 硕 和 生成 器 都 采用 全 卷 积 神经 网 络 。 除 了 判 
别 器 的 最 后 一 层 和 生成 器 的 第 一 层 之 外 ， 其 他 层 都 采用 卷 积 层 。 该 模型 提升 了 GAN 生成 大 尺度 
图 像 的 能 力 , 它 在 LSUN ( Large-scale Scene Understanding ) 数据 集 上 训练 后 可 生成 大 小 为 64x64 
的 逼真 图 像 ， 超 过 了 之 前 的 其 他 GAN 模型 。 


DCGAN 模型 的 整体 架构 与 原始 的 GAN 模型 一 致 ( 如 图 10-1 所 示 ), 区 别 在 于 生成 器 和 判别 
器 在 具体 实现 方面 的 几 个 细节 : 首先 , 判别 器 中 的 池 化 层 被 带 步 长 的 卷 积 层 (strided convolution ) 
取代 。 这 使 得 CNN 能 够 自动 学 习 特 征 图 的 降 采 样 模式 ， 而 非 按 照 固定 的 最 大 池 化 或 平均 池 化 做 
降 采样 。 这 种 降 采 样 方式 也 使 得 整个 DCGAN 模型 变 为 完全 可 微 的 ， 对 于 训练 的 稳定 性 有 好 处 。 
其 次 ,判别 颖 (除了 输出 层 之 外 ) 和 生成 融 〈 除 了 输入 层 之 外 ) 的 卷 积 层 输出 结果 都 经 过 BN 层 
做 归 一 化 。 基 于 BN 层 的 归 一 化 使 得 训练 精度 对 于 参数 初始 化 不 敏感 ， 并 且 能 够 加 快 训练 速度 。 

另外 ,为 了 使 得 生成 的 图 像 数 据 更 逼真 ， DCGAN 模型 的 设计 也 包含 一 些小 技巧 ， 比 如 生成 
带 (除了 输出 层 之 外 ) 主要 采用 ReLU 作为 激活 函数 ， 判 别 咒 主要 采用 Leaky ReLU 作为 激活 函 
数 ; 训练 时 的 优化 需 选 用 Adam 而 不 是 带动 量 的 SGD。 以 上 这 些 特性 虽然 没有 严格 的 数学 证 明 ， 
但 是 会 使 得 生成 大 尺度 图 像 的 效果 非常 不 错 。 


10.2.4 ”InfoGAN 模 型 


原始 的 GAN 模型 训练 出 的 生成 器， 其 输入 向 量 的 每 个 维度 不 代表 具体 的 语义 信息 ， 输 出 图 
像 的 语义 通常 隐藏 地 分 布 在 输入 向 量 的 各 个 维度 中 。 假设 生成 器 的 输出 图 像 为 人 脸 ， 当 我 们 想 编 
辑 图 像 的 某 个 语义 信息 ( 如 眼睛 颜色 ) 时 ， 需 要 进一步 挖掘 输入 向 量 中 的 维度 与 图 像 语义 的 映射 
关系 ,并 确保 编辑 过 程 只 作用 于 特定 的 图 像 语 义 。 为 了 使 生成 器 的 输入 向 量 的 一 些 维度 具有 明确 
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的 语义 ，OpenAI 公司 的 Xi Chen 等 人 提出 InfoGAN 模型 。 


在 InfoGAN 模型 中 ,生成 器 的 输入 向 量 由 两 部 分 构成 ,一 部 分 是 不 可 压缩 的 噪声 向 量 z， 男 
一 部 分 是 可 代表 明显 语义 特征 的 向 量 ec。 向 量 c 中 每 个 维度 的 值 可 以 是 离散 的 ( 比如 手写 体 数字 
的 类 别 )， 也 可 以 是 连续 的 〈 比如 手写 体 数字 的 倾斜 度 )。 我 们 希望 向 量 c 和 生成 器 输出 图 像 之 间 
的 互信 息 最 大 ,以 使 得 向 量 c 中 每 个 维度 都 代表 明确 的 语义 信息 。 因 此 ，InfoGAN 模型 的 最 优化 问 
题 可 被 描述 为 minemaxpV(D,G)=minomaxp(V(D,G)-A7(c;G(z,0)))。 其中, V(D,G)=Ey, [logD(x) ] + 
Eip.(o [log(1-D(G(z))) ] 是 标准 GAN 模型 的 损失 函数 ，7e;G(z,o)) 表 示 疝 量 c 与 生成 带 输 出 图 像 
G(z,O) 之 间 的 互信 息 ， 互 信息 越 大 说 明 相 关 性 越 高 。 根 据 信息 信 的 定义 ，Ze;G(z,o)) 可 进一步 表示 
为 1c;G(z,c))=H(e)-H(c|G(z,ce))=E ccao [ Es pea) [ logP(c'x) ]] +H(oc), 其 中 AH(:) 表示 信息 粹 。 直 
接 优化 Kc;G(z,o)) 意味 着 需要 对 隐藏 变量 c 的 后 验 概率 分 布 Plclx) 做 采样 。 如 果 采 用 蒙特 卡 洛 模 
拟 法 对 后 验证 概率 分 布 P(cjx) 做 近似 计算 ， 则 计算 量 很 大 ， 速 度 比较 慢 ， 而 且 有 一 定 随机 性 。 为 
此 ，InfoGAN 通过 引入 变 分 法 解决 这 个 问题 。 它 采用 一 个 辅助 分 布 O(clx) 来 近似 Plclx)， 从 而 避 
免 对 Plcjx) 直 接 采 样 ， 简 化 了 计算 。 具 体 公 式 为 Le;G(z,c))=By cco [DurCP(C pol20 PO)+tEe pa 
[ logQ(e'x) ]] +H(e)。 其 中 ，Dgz(P(: oIQ( bo) 表示 真实 的 后 验 概 率 分 布 与 其 近似 分 布 之 间 的 KL 
散 度 。 由 于 KL 散 度 的 非 负 性 ， 我 们 可 以 得 到 Ke;GCGC,oO) 三 DG.O)= 及 cco [ Berpeew [ logQ(e'x) ]] 
+E(o。Kc;G(zo) 的 最 大 化 问题 可 转变 为 L(G,O) 的 最 大 化 问题 。 在 实际 中 ， 我 们 可 以 采用 深度 
学 习 模 型 表示 O(clx)。InfoGAN 的 原理 框图 如 图 10-5 所 示 。 可 以 看 出 ，InfoGAN 在 原始 的 GAN 
基础 上 引入 了 向 量 c 和 辅助 分 布 CO(cpe) ， 辅 助 分 布 与 判别 器 共享 输出 层 以 外 的 其 他 层 。 


判别 器 D 
( 与 0 共享 


图 10-5”InfoGAN 的 原理 框图 


10.2.5 LSGAN 模 型 


上 面 几 种 GAN 模型 的 目标 函数 大 部 分 基于 sigmoid 交叉 粹 ， 这 种 目标 函数 有 时 会 导致 梯度 
消失 问题 。 当 生成 器 G 生 成 的 数据 处 于 判别 器 D 的 分 类 面 的 正确 一 侧 , 但 又 离 真 实数 据 分 布 比较 
远 时 ( 比如 生成 的 图 像 质 量 还 不 高 时 ), 我 们 很 难 通过 该 目标 函数 计算 出 相应 的 梯度 更 新 生成 器 G 
的 模型 参数 。 生 成 器 G 将 难以 被 继续 优化 ,此 时 出 现 了 梯度 消失 现象 ,LSGAN( Least Suqares GAN， 
最 小 二 乘 GAN ) 模型 是 一 种 采用 基于 最 小 二 乘法 的 目标 函数 分 别 优化 生成 器 和 判别 器 的 GAN 模型。 
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为 了 使 判别 器 D 对 生成 器 G 生 成 的 数据 做 正确 的 分 类 ， 同 时 使 生成 器 生成 的 数据 与 真实 数据 在 流 形 
空间 中 尽 可 能 靠近 , LSGAN 模型 的 目标 优化 函数 被 设计 为 minpVisenx(D)= 了 (En [CCo- 好 ]+ 


E, ,| (DO) -a) D 和 mineViseax(O)= 3 | (DCG(z)-o)? |。 其 中 ,a、5b 分 别 为 生成 数 
据 和 真实 数据 的 标签 ，c 是 生成 器 G 为 了 “迷惑 ”判别 器 D 而 给 生成 数据 设 定 的 标签 。LSGAN 
模型 的 整体 架构 与 原始 的 GAN 模型 基本 一 致 ， 主 要 的 不 同 点 在 于 目标 优化 函数 。 当 固定 生成 器 


b 当 国 
G 时， 对 判别 器 D 的 目标 优化 函数 求 导 可 得 出 最 优 的 判别 器 : D* = Ce 当 判别 器 


1 、 
D=D* 时 ， 如 果 2-c=1l BH b-a=2, 则 Viscan(G)= pa ee ((Daatat Pe)l|2p,)o 其 中 ， 和 et (: ) 为 皮尔 


森 卡 方 散 度 。 它 类 似 于 KL 散 度 ， 可 以 用 于 描述 两 个 概率 分 布 之 间 的 相似 度 。 为 了 满足 -c=1 和 
b-a=2， 一般 a、b、c 的 取 值 分 别 为 -1、1、0。 另 外 ， 基 于 sigmoid 交叉 信 的 目标 函数 容易 出 现 
饱和 ， 从 而 导致 无 法 继续 训练 。 但 最 小 二 乘法 目标 函数 则 不 容易 出 现 饱和 现象 , 这 使 得 训练 过 程 
变 得 更 加 容易 。 实 验 效果 表明 , 相 比 原始 的 GAN 模型 ， LSGAN 模型 生成 的 图 像 分 辩 率 更 高 ， 且 
训练 过 程 更 加 稳定 。 


10.2.6 ”WGAN 模 型 


如 10.1.2 节 所 述 , 在 常规 GAN 模型 的 目标 优化 函数 中 , 使 用 JS 散 度 可 能 引发 梯度 消失 现象 
而 使 得 生成 器 无 法 更 新 。 为 了 避免 这 一 问题 ， 纽 约 大 学 的 Martin Arjovsky 等 人 提出 了 WGAN 模 
型 ， 采 用 地 动 距离 (EMD ，Earth Mover’s Distance ) 来 定义 生成 数据 和 真实 数据 分 布 之 间 的 差异 。 
地 动 距离 被 定义 为 Wlpasialpe)=infy-neawpoBewxy [xc- 咱 ] 其 中 ， 符 号 inf 表示 函数 的 下 界 ，y 表 
示 由 边缘 概率 分 布 paas 和 ps 共同 构成 的 联合 概率 分 布 。 地 动 距离 表示 将 一 个 概率 分 布 转换 为 男 一 
个 概率 分 布 所 需 经 过 的 最 短 距离 。 相 比 于 JS 散 度 ， 它 可 以 做 到 处 处 连续 且 可 微 。 当 两 个 分 布 之 
间 没 有 任何 交集 时 ， 地 动 距离 也 可 以 给 出 有 效 的 度量 ,这样 可 以 解决 原始 GAN 模型 中 判别 器 处 
于 最 优 状态 时 生成 器 的 梯度 消失 问题 。 然 而 , 直接 求 取 地 动 距 离 的 下 界 在 数学 上 是 很 难 的 。 为 此 ， 
Martin Arjovsky 等 人 提出 使 用 Kantorovich-Rubinstein 对 偶 将 原 问 题 进行 变换 。 这 个 变换 的 前 提 是 
判别 器 为 一 阶 的 利 普 希 茨 连续 函数 。 利 普 硕 欧 连 续 性 要 求 函 数 的 导数 在 所 有 位 置 上 的 绝对 值 都 不 
能 超过 一 个 既定 的 常数 。 为 方便 起 见 ， 早 期 版 本 的 WGAN 模型 采用 了 简单 的 权重 裁剪 ( weight 
clipping ) 方法 。 当 梯度 过 大 导致 模型 中 每 层 权 重 参数 过 大 时 ， 该 方法 将 权重 值 限 定 在 一 定 取 值 
范围 内 。 权 重 裁剪 会 给 GAN 模型 添加 一 个 超 参 选项 ， 即 裁剪 的 阔 值 c。 虽 然 权 重 裁剪 实现 起 来 
很 简单 ， 但 是 c 这 个 超 参 如 果 设 置 得 不 好 ， 就 会 在 判别 器 中 引发 梯度 消失 或 梯度 爆炸 。 另 外 , 由 
于 取 值 范围 的 限定 ,判别 器 的 参数 分 布 容易 出 现 极端 化 , 会 有 大 量 的 参数 集中 在 -< 和 c 这 两 个 值 
附近 。 改进 后 的 WGAN 模型 采用 了 梯度 惩罚 ( gradient penalty ) 方法 以 使 判别 器 满足 利 普 希 次 连 
续 性 条 件 ， 具 体 做 法 是 在 判别 器 的 损失 函数 中 添加 一 个 正则 项 来 限定 权重 梯度 的 取 值 范围 。 
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在 WGAN 模型 的 实际 应 用 中 ，Martin Arjovsky 等 人 也 提出 了 一 些 有 用 的 小 技巧 ， 这 些 技巧 
已 经 在 很 多 开源 数据 集 上 得 到 了 验证 。 比如, SGD 和 RMSProp 等 优化 器 通常 表现 较 好 , 而 Adam 
或 者 Momentum SGD 等 带 有 动 量 的 优化 器 则 表现 不 好 ， 不 能 保证 梯度 更 新 的 稳定 性 。 另 外 ， 
WGAN 模型 中 判别 器 地 动 距离 近似 值 的 大 小 与 生成 器 生成 图 像 的 质量 有 强 相 关 性 。 我 们 在 用 
WGAN 做 实验 时 ， 可 以 根据 地 动 距离 近似 值 的 大 小 直接 估计 出 当前 图 像 质量 的 好 坏 。 
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在 基于 GAN 改进 的 模型 中 ，DCGAN 比较 有 代表 性 ， 它 很 好 地 体现 了 深度 卷 积 模型 与 GAN 
的 结合 。 本 节 以 该 模型 为 例 ， 介 绍 如 何 利 用 TensorFlow 实现 GAN 模型 。 本 节 引 用 的 代码 来 自 
GitHub 社区 的 carpedm20/DCGAN-tensorflow 项 目 。 在 所 有 与 DCGAN 实现 相关 的 项 目 中 ， 该 项 
目的 受 欢 迎 程度 最 高 。 

该 项 目 采 用 了 模块 化 设计 , 将 数据 、 算 子 、 模 型 和 训练 程序 的 定义 分 开 。 这 使 得 整个 项 目的 
代码 结构 简单 清晰 ， 没 有 复杂 的 层次 关系 。 该 项 目 主体 代码 由 download.py、utils.py、model.py、 
ops.py 和 main.py 这 几 个 Python 模块 构成 ， 每 个 模块 的 具体 功能 如 下 。 


D download.py: 负责 下 载 和 解压 三 个 开源 数据 集 ( Celeb-A、LSUN 和 MNIST ) 。 

D utils.py: 提供 通用 的 工具 方法 ， 涉 及 对 图 像 执 行 打开 、 保 存 、 预 处 理 和 可 视 化 ， 以 及 对 

模型 执行 格式 转换 〈 如 将 模型 转 存 为 JSON 格式 ) 。 

口 ops.py: 负责 封装 DCGAN 模型 用 到 的 主要 算 子 ， 包 括 BN 、Convolution 、Deconvolu 
tion、Leaky ReLU 、Linear ( 全 连接 ) 等 ， 这 些 算 子 是 对 TensorFlow Python API 的 进一步 
封装 ， 具 体 实 现 依赖 于 tensorflow.nn 模块 。 

口 model.py: 用 于 定义 包括 生成 器 和 判别 器 在 内 的 DCGAN 模型 及 其 训练 步骤。 

D main.py: 整个 训练 代码 的 入 口 程序 ， 它 读 取 用 户 设置 的 超 参 数 ， 创 建 DCGAN 对 象 ， 然 后 
调用 DCGAN 对 象 的 train 方法 启动 训练 。 


可 以 看 出 ，model 模块 是 整个 项 目的 核心 。 下 面 我 们 首先 介绍 如 何 根据 generator 、 
discriminator 等 方法 构造 出 DCGAN 模型 ， 然 后 以 DCGAN 类 的 train 方法 为 主线 , 说 明 模 型 的 
训练 过 程 。 

DCGAN 类 的 初始 化 函数 主要 用 于 定义 模型 超 参数 ， 以 及 基于 这 些 超 参数 建立 模型 。 具 体 代码 
如 下 : 


class DCGAN(object): 
def _ init (self, sess, input height=168, input width=168, crop=True, 

batch_size=64, sample_ num=64, output _ height=64, output width=64, 
y_dim=None, z_dim=1660, gf_dim=64, df_dim=64, 
gfc_dim=1624, dfc_dim=1624, c_dim=3, dataset name="'default"', 
input_fname_pattern='*.jpg', checkpoint dir=None, sample_dir=None): 

self.sess = sess # 当前 会 话 

self.crop = crop # 是 否 需要 裁剪 判别 器 的 输入 图 像 ， 即 改变 原 图 像 高 和 宽 
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self.batch_size = batch_size # 训练 所 用 的 批 大 小 
self.sample_num = sample_num # 每 次 迭代 中 生成 器 采样 的 样本 数 
self.input_height = input_height # 训练 集中 输入 图 像 的 宽度 
self.input_width = input_width # 训练 集中 输入 图 像 的 高 度 
self.output_height = output_height # 生成 器 生成 的 图 像 高 度 
self.output_width = output_width # 生成 器 生成 的 图 像 宽度 
self.y_dim = y_dim # 生成 器 或 判别 器 的 输入 条 件 向 量 维 度 
self.z_dim = z_dim # 生成 器 的 输入 噪声 向 量 维度 


self.gf_dim = gf_dim # 生成 器 的 第 一 个 卷 积 层 的 输出 通道 数 
self.df dim = df_dim # 判别 器 的 第 一 个 卷 积 层 的 输出 通道 数 


self.gfc_dim = gfc_dim # 生成 器 的 全 连接 层 的 输出 神经 元 个 数 
self.dfc_ dim = dfc_dim # 判别 器 的 全 连接 层 的 输出 神经 元 个 数 


看 芝 

# 定义 生成 器 和 判别 器 的 BN 层 

闪 

self.dataset_name = dataset_name # 训练 数据 集 的 名 称 
# 


# 定义 输入 图 像 的 格式 和 通道 数 c.dim ( 灰 度 图 像 的 通道 数 为 1， 彩 色 图 像 的 通道 数 为 3) 
# ... 
self.build _model() # 建立 模型 


初始 化 函数 调用 的 build_model 成 员 方法 用 于 构造 整个 DCGAN 模型 ， 其 基本 流程 为 : 首 
先 ， 新 建 一 个 生成 器 〈generator )、 一 个 判别 器 〈distriminator ) 和 一 个 采样 器 ( sampler ) 对 象 。 
采样 器 的 模型 参数 来 自 于 生成 器 的 模型 参数 ,可 用 于 对 模型 的 好 坏 作出 评价 。 这 里 可 以 选择 性 地 
将 CGAN 的 设计 思想 与 DCGAN 结合 起 来 ， 具 体 实现 方式 是 将 条 件 向 量 加 入 到 生成 器 和 判别 器 


对 象 的 输入 中 。 然 后 ， 根 据 GAN 模型 的 原理 构造 判别 器 和 


[生成 器 的 损失 函数 ， 以 此 建立 起 二 者 


互相 博弈 的 规则 。 最 后 , 将 生成 器 和 判别 器 的 模型 参数 分 别 用 单独 的 张 量 保存 引用 , 便于 做 更 新 、 


保存 等 操作 。 该 方法 的 具体 代码 如 下 : 


def build model(self): 


if self.y_dim: 
# 定义 生成 器 或 者 判别 器 的 输入 条 件 向 量 
self.y = tf.placeholder(tf.float32, [self.batch_size, self.y_dim], name='y') 
else: 
self.y = None 
# 如 果 self.crop 为 True， 则 在 输入 图 像 的 中 央 裁 剪 出 高 度 和 宽度 分 别 为 
# Self.output_height 和 self.output_width 大 小 的 图 像 
if self.crop: 


image_dims = [self.output_height，self.output_width，self.c_dim] 
else: 
image_dims = [self.input height, self.input width, self.c_dim] 


# 定义 判别 器 的 输入 数据 ， 即 真实 的 图 像 

self.inputs = tf.placeholder(tf.float32, [self.batch size] + image dims, name='real images') 
inputs = self.inputs 

self.z = tf.placeholder(tf.float32, [None, self.z_ dim], name="'z') 

He 
# 分 别 创建 生成 器 、 判 别 器 和 采样 器 ， 并 得 到 相应 的 输出 张 量 。 在 训练 过 程 中 ， 

# 每 局 一 定 的 选 代步 数 ， 采 样 器 被 调用 一 次 ， 其 本 质 是 用 生成 器 做 一 次 推理 并 得 到 生成 的 图 像 ， 
# 通过 对 生成 的 图 像 做 质量 评价 ， 我 们 可 以 知道 当前 生成 器 的 好 坏 

self.G = self.generator(self.z, self.y) 

self.D, self.D logits = self.discriminator(inputs, self.y, reuse=False) 
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self.sampler = self.sampler(self.z, self.y) 
self.D_, self.D logits = self.discriminator(self.G, self.y, reuse=True) 
Hs 
# 定义 判别 器 在 真实 数据 分 布 上 的 损失 函数 
self.d_ loss_real = tf.reduce_mean( 
sigmoid cross_entropy with logits(self.D logits, tf.ones like(self.D))) 
# 定义 判别 器 在 生成 数据 分 布 上 的 损失 函数 
self.d_ loss_ fake = tf.reduce_mean( 
sigmoid_cross_entropy_with_logits(self.D_logits_ , tf.zeros like(self.D_ ))) 
# 定义 生成 器 在 生成 数据 分 布 上 的 损失 函数 
self.g_loss = tf.reduce_mean( 
sigmoid_cross_entropy_with_logits(self.D_logits_，tf.ones_1ike(self.D_))) 
Re 
self.d_loss = self.d_loss_real + self.d_loss_fake # 判别 器 总 的 损失 有 函数 
t_vars = tf.trainable_variables() # 所 有 可 被 训练 的 参数 
self.d_vars = [var for var in t_vars if 'd_' in var.name] # 判别 器 中 可 被 训练 的 参数 
self.g_vars = [var for var in t_vars if 'g_' in var.name] # 生成 器 中 可 被 训练 的 参数 
# 


需要 注意 的 是 ， 当 训练 数据 为 MNIST 数据 集 时 , DCGAN-tensorflow 项 目 默 认 采 用 数据 集 的 
图 像 标 签 作为 条 件 向 量 对 生成 器 (或 判别 器 ) 做 约束 。 因 为 MNIST 数据 集中 图 像 分 辩 率 较 低 、 
数据 复杂 度 不 高 ， 所 以 生成 器 (或 判别 器 ) 也 可 以 构造 得 简单 一 些 ， 两 层 反 卷 积 (或 卷 积 ) 即 可 
满足 特征 提取 的 要 求 。 对 于 其 他 数据 集 , 该 项 目 主要 采用 四 层 反 卷 积 (或 卷 积 ) 来 构造 生成 器 (或 
判别 器 )， 以 充分 提取 图 像 数据 的 特征 ， 此 时 默认 不 需要 条 件 向 量 的 约束 。 

依据 条 件 向 量 的 有 无 , 生成 器 的 基本 工作 流程 具有 两 个 分 支 。generator 函数 的 具体 代码 
如 下 : 


def generator(self，Zz，y=None): # 生成 器 
with tf.variable_ scope("generator") as scope: 
if not self.y_dim: 
# 将 输出 图 像 的 高 度 和 宽度 分 别 设 定 为 self.output_height 和 self.output_width。 
# 因为 每 层 反 卷 积 操作 的 stride 都 设 为 2， 所 以 每 层 反 卷 积 之 后 图 像 的 高 度 和 宽度 都 会 加 信 
s_h，Ss_w= self.output_height，self.output_width 
s_h2, s_w2 = conv_out size same(s _h, 2), conv_out_ size_ same(s _w, 2) 
s_h4, s w4 = conv_out size same(s_h2, 2), conv_out size same(s_w2, 2) 
s_h8, s_w8 = conv_out size same(s_h4, 2), conv_out size same(s_w4, 2) 
s_h16, s_w16 = conv_out size same(s_h8, 2), conv_out size same(s_w8, 2) 
# 将 生成 器 的 输入 噪声 向 量 通过 线性 变换 映射 到 self.gf_dim*8*s_h16*s_w16 维度 的 向 量 
self.z_ ，self.h6e_w，self.h6e_b = Linear(z，self.gf_dimrk8+ks_h16*Ss_wW16， 
'g_he_lin', with w=True) 
self.h@ = tf.reshape(self.z_, [-1, s_h1i6, s_w16, self.gf dim * 8]) 
he = tf.nn.relu(self.g_bne(self.he)) 
# 按照 调 参 经 验 ， 除 了 最 后 一 层 激活 函数 采用 tanh 之 外 ， 其 他 层 激 活 函 数 都 采用 ReLU 
self.h1，self.h1 _w，self.h1_b = deconv2d( 
he, [self.batch size, s_h8, s_w8, self.gf_dim*4], name='g_h1i', with_ w=True) 
h1 = tf.nn.relu(self.g_bn1i(self.h1)) 
Hs 
# 类 似 于 hl 的 求 取 过 程 ， 通 过 连续 调用 反 卷 积 操 作 (deconv2d) 、 
# BN 操作 (self.g bn1、self.g_bn2、self.g_bn3) 和 激活 操作 (tf.nn.relu) ， 得 到 h2 和 h3 
Ha 
h4, self.h4 w, self.h4 b = deconv2d( 
h3, [self.batch size, s_h, sw, self.c dim], name='g_h4', with w=True) 
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return tf.nn.tanh(h4) 

else: 
# 当 有 条 件 向 量 y 时 ,构造 一 个 主要 由 两 层 卷 积 和 两 层 全 连接 组 成 的 相对 简单 的 模型 
# 因为 有 条 件 向 量 y， 所 以 将 每 个 激活 层 的 输出 向 量 与 条 件 向 量 y 连接 起 来 ， 以 形成 条 件 约束 
a 


采样 器 sampler 使 用 与 生成 器 generator 相同 的 模型 架构 及 模型 参数 ， 因 此 其 代码 实现 不 
再 袭 述 。 二 者 的 区 别 在 于 : 在 实际 训练 过 程 中 , 采样 器 仅 在 每 隔 一 定 步 数 后 才 执行 一 次 前 向 传播 
计算 ， 而 生成 器 则 在 每 一 步 都 要 执行 一 次 前 向 传播 计算 和 一 次 后 向 传播 计算 。 


类 似 于 生成 器 generator ， 判 别 器 distriminator 的 基本 工作 流程 也 具有 两 个 分 支 : 当 没 
有 条 件 向 量 时 ， 判 别 器 主要 由 四 个 卷 积 层 和 一 个 全 连接 层 组 成 ; 当 有 条 件 向 量 时 ， 判 别 器 主要 
两 个 全 连接 层 和 两 个 卷 积 层 组 成 。 为 了 保证 条 件 向 量 对 判别 器 的 影响 , 判别 器 中 每 个 激活 层 之 后 
的 数据 都 会 与 条 件 向 量 相 拼 接 。distriminator 函数 的 具体 代码 如 下 : 


def discriminator(self, image, y=None, reuse=False): # 判别 器 
with tf.variable_ scope("discriminator") as scope: 
# 复 用 已 有 变量 
if reuse: 
scope.reuse_variables() 
# 如 果 没 有 条 件 向 量 y， 则 建立 一 个 带 有 四 层 卷 积 操作 的 卷 积 模型 。 为 了 避免 梯度 消失 现象 ， 
# 每 层 卷 积 之 后 都 加 BN 层 。 除 了 最 后 一 层 激活 有 函数 为 sigmoid 之 外 ， 其 他 层 激 活 有 函数 为 leaky ReLU 
if not self.y_ dim: 


he = lLrelu(conv2d(image，self.df _ dim，name='d_h6e_conv ')) 

h1 = lrelu(self.d_bni(conv2d(h@, self.df_dim*2, name='"'d_h1_conv'))) 
h2 = lrelu(self.d_bn2(conv2d(h1, self.df_dim*4, name='d_h2_conv'))) 
h3 = lrelu(self.d_bn3(conv2d(h2, self.df_dim*8, name='"'d_h3_conv'))) 


h4 = linear(tf.reshape(h3, [self.batch size, -1]), 1, 'd_h4_ lin') 
return tf.nn.sigmoid(h4), h4 

else: 
# 与 not self.y_dim 分 支 中 建 模 的 特点 相同 ， 除 最 后 一 层 外 的 每 一 层 都 包含 
# BN、leaky ReLU 这 两 个 算 子 ， 区 别 在 于 后 两 层 不 是 卷 积 层 ， 而 是 全 连接 层 
4 


DCGAN 对 象 实例 化 之 后 ， 调 用 其 train 方法 即 可 开始 训练 。train 方法 的 基本 流程 为 : 首先 
通过 最 小 化 损失 函数 分 别 定义 生成 右 和 判别 右 的 优化 操作 , 用 于 在 每 次 迭代 过 程 中 更 新 各 自 的 模 
型 参数 ; 然后 初始 化 生成 器 和 判别 器 的 模型 参数 , 并 定义 用 于 sampler 计算 的 数据 ; 最 后 循环 执 
行 指定 次 数 的 训练 过 程 。 具 体 代码 如 下 : 


def train(self, config): 
# 调用 Adam 优化 器 的 minimize 方法 得 到 生成 器 和 判别 器 的 优化 操作 
d_optim = tf.train.AdamOptimizer(config.learning_prate，beta1l=config.betal) \ 
.minimize(self.d_loss, var_list=self.d_vars) 
g_optim = tf.train.AdamOptimizer(config.learning_rate, betal=config.betal) \ 
.minimize(self.g loss, var_list=self.g_vars) 
# 初始 化 当前 会 话 中 所 有 的 变量 
try: 
tf.global_variables_ initializer().run() 
except: 
tf.initialize all_ variables().run() 
和 
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# 定义 采样 数据 ， 用 于 sampler 的 计算 


# ... 
Counter = 1 # 进 代 步 数 的 计数 器 
# 


# 根据 config 中 指定 的 epoch 总 数 (默认 为 25) 开始 循环 执行 训练 
for epoch in xrange(config.epoch): 
rs 
for idx in xrange(0, batch_idxs): 
# 读 取 批 数据 用 于 单 步 训练 
if config.dataset == "mnist' : 
batch_images = self.data X[idx*config.batch_size:(idx+1)*config.batch_ size] 
batch_labels = self.data y[idx*config.batch_ size:(idx+1)*config.batch_ size] 
else: 
batch_files = self.data[idx*config.batch size:(idx+1)*config.batch_sizel] 
# 调用 utils.py 提供 的 get_image 方法 调整 图 像 大 小 ， 图 像 的 高 度 由 self.input_height 
# 变 为 self.output_height， 宽 度 由 self.input_width 变 为 self.output_width 
batch = [get_image(batch_file， 
input_height=self.input_height， 
input_width=self.input_width， 
resize_height=self.output_height， 
resize_width=self.output_width， 
crop=self.crop， 
grayscale=self.grayscale) for batch file in batch files] 


和 
batch z= np.random.uniform(-1, 1, [config.batch_size, self.z_dim]).astype(np.float32) 
# 对 于 MNIST 数据 集 ， 执 行 特殊 的 处 理 逻 辑 
if config.dataset == "mnist' : 
# 执行 d_optim 操作 ， 更 新 判别 器 的 模型 参数 
_， SUummary_str = self.sess.run([d_optim, self.d_sum], feed dict={self.inputs: 
batch_images, 
self.z: batch z, 
self.y:batch_ 
labels,}) 
和 
# 执行 8_optim 操作 ， 更 新 生成 器 的 模型 参数 
_， SUummary_str = self.sess.run([g_optim, self.g sum], feed dict={self.z: batch_z， 
self.y:batch_ 
labels,}) 


# ... 
else: 
# 对 于 其 他 数据 集 ， 同 样 依次 执行 d_optim 和 g_optim 操作 ， 
# 该 分 支 与 mnist 分 支 代码 的 区 别 在 于 此 处 的 判别 器 和 生成 器 没有 条 件 约束 
汪 人 
counter += 1 
# ... 


综 上 , DCGAN-tensorflow 项 目 以 模块 化 的 思路 呈现 了 一 个 GAN 模型 的 完整 训练 过 程 。 我 们 
可 以 在 此 基础 上 很 方便 地 引入 其 他 算 子 , 实现 自 定义 的 判别 侨 和 生成 器 模型 ， 以 适应 更 复杂 的 数 
据 集 。 另 外 , 感 兴趣 的 读者 可 以 基于 该 项 目 做 进一步 的 优化 ， 比 如 可 以 用 队列 机 制 将 模型 训练 时 
的 数据 读 取 变 为 异步 操作 ， 从 而 掩盖 IO 时 间 。 
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10.4 小 结 


GAN 是 一 种 基于 深度 神经 网 络 的 生成 模型 。 它 由 生成 器 和 判别 器 构成 ， 其 训练 过 程 即 为 二 
者 互相 博弈 的 过 程 。GAN 模型 最 大 的 好 处 在 于 灵活 性 ， 即 不 对 数据 的 分 布 做 任何 假设 ， 故 而 自 
由 度 非 常 大 。GAN 模型 巧妙 地 借助 了 深度 学 习 模 型 ( CNN 等 ) 对 数据 分 布 的 强大 建 模 能 力 ， 使 
得 生成 逼真 的 图 像 等 高 维 数据 成 为 可 能 。 然 而 ， 任 何 灵 活性 都 是 有 代价 的 。 原 始 GAN 模型 最 大 
的 问题 就 是 约束 条 件 太 少 , 训练 不 稳定 ,容易 出 现 模式 骨 溃 ， 难 以 达到 一 个 最 优 状 态 。 针 对 这 些 
问题 ， 人 们 提出 了 诸多 改进 的 GAN 模型 ， 如 CGAN 、LAPGAN 、DCGAN 、InfoGAN 、LSGAN、 
WGAN 等 , 这些 模 型 使 得 生成 的 图 像 分 辩 率 更 高 、 训 练 更 稳定 。 其 中 ,DCGAN 是 一 种 经 典 日 常 
用 的 GAN 模型 。 本 章 以 GitHub 社区 的 carpedm20/DCGAN-tensorflow 项 目 为 例 ， 介 绍 了 如 何在 
TensorFlow 中 以 模块 化 的 形式 实现 DCGAN。GAN 模型 的 应 用 场景 很 多 , 包括 图 像 翻 译 、 图 像 超 
分 辨 率 、 图 像 编辑 、 自 然 语 言 处 理 等 ， 它 还 可 以 被 应 用 到 无 监督 学 习 和 强化 学 习 框 架 中 。GAN 
为 机 器 学 习 和 深度 学 习 领 域 带 来 了 一 个 新 的 研究 方向 ， 相 信 未 来 这 方面 会 有 更 多 突破 性 的 进展 。 


RNN 模型 


现实 中 的 很 多 数据 具有 时 间 、 空 间 等 方面 的 序列 特征 , 数据 序列 的 前 后 部 分 具有 逻辑 上 的 关 
联 性 。 神 经 网 络 的 研究 者 们 针对 这 类 数据 的 语义 感知 与 分 析 问 题 , 设计 了 RNN ( 循环 神经 网 络 ) 
模型 。 这 种 模型 具有 了 时序 上 的 “记忆 ”能 力 ， 因 而 在 自然 语言 理解 、 语 音 识别 等 领域 取得 了 显著 
效果 。TensorFlow 的 灵活 架构 为 RNN 模型 的 构建 与 训练 提供 了 良好 的 支持 。 本 章 首先 介绍 常用 
的 RNN 单元 及 其 对 应 的 TensorFlow 接口 与 实现 ， 然 后 讲解 如 何 使 用 TensorFlow 开发 基于 RNN 
的 语言 模型 和 Seq2Seq 模型 。 


11.1 基本 RNN 单元 及 其 变种 


RNN 模型 是 一 种 层 内 神经 元 之 间 形 成 有 向 环 连接 的 神经 网 络 模型 。RNN 模型 不 属于 前 馈 神 
经 网 络 模型 ， 它 的 主要 特点 在 于 隐藏 层 的 输出 不 仅 连 接 到 下 一 层 ， 而 且 还 连接 到 自身 。 这 种 连接 
到 自身 的 特点 构成 了 数据 的 循环 。 通 常 ，RNN 模型 的 输入 和 输出 都 具有 “时 序 ” 特 性 。 为 了 表 
达 RNN 模型 的 “循环 ”特性 ， 可 以 将 其 按照 输入 序列 的 长 度 展开 。 展 开 后 ，RNN 模型 可 以 看 作 
由 一 系列 核心 模块 (RNN 单元 ) 形成 的 二 维 阵列 。 在 该 阵列 中 ， 前 一 时 刻 与 后 一 时 刻 的 RNN 单 
元 相互 连接 ,上 一 层 与 下 一 层 的 RNN 单元 相互 连接 。 在 RNN 单元 内 部 , 我 们 可 以 设计 出 各 种 复 
杂 的 计算 流程 ， 从 而 构造 出 不 同 的 模型 ， 满 足 不 同 场景 的 需求 。 本 节 介 绍 RNN 模型 的 基本 构成 
以 及 其 中 常用 的 几 种 单元 。 


11.1.1 RNN 模 型 简介 


在 介绍 基本 RNN 单元 之 前 , 我 们 先 介 绍 一 个 简单 的 RNN 模型 。 该 模型 的 基本 原理 如 图 11-1 
所 示 ， 其 中 第 1! 层 的 输入 xs …, x/ ,…, x 为 该 层 从 0 到 了 时 刻 的 连续 输入 序列 。 该 模型 的 计算 逻 
辑 为 : 在 第 1 层 ,1 时 刻 的 输入 向 量 x 与 矩阵 UV' 相 乘 后 的 结果 加 上 前 一 时 刻 该 层 的 输出 向 量 si 与 
矩阵 丈 ' 相 乘 后 的 结果 ， 再 经 过 激活 函数 得 到 该 层 在 1 时 刻 的 输出 向 量 s' 。 该 输出 向 量 * 可 以 输 
入 到 下 一 层 继续 处 理 ， 也 可 以 直接 接 人 输出 层 ， 即 与 矩阵 亚 相 乘 后 再 经 过 激活 函数 得 到 最 终 输 
出 向 量 欠 。 所 有 时 刻 的 输出 向 量 共同 组 成 了 该 RNN 模型 输出 序列 为，…… 世 ，… 攻 。 该 模型 中 拢 
阵 UV',W', 玉 分 别 与 各 自 输入 向 量 做 乘积 ， 实 现 对 输入 向 量 的 线性 变换 。 
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图 11-1 RNN 模型 的 基本 原理 图 


RNN 模型 中 常用 的 单元 包括 基本 RNN 单元 、LSTM 单元 、GRU 单元 、 双 向 RNN 单元 和 有 具 
有 其 他 特性 的 RNN 单元 。 这 些 单元 类 似 于 CNN 模型 中 不 同类 型 的 层 ， 是 RNN 模型 的 基本 组 成 
部 分 。 但 是 由 于 多 种 连接 的 存在 ， 这 些 单元 的 内 部 结构 要 比 CNN 中 的 层 复 杂 很 多 。 


11.1.2 基本 RNN 单 元 

上 述 RNN 模型 中 用 到 的 基本 RNN 单元 如 图 11-2 所 示 。 该 单元 的 输入 为 前 一 时 刻 隐藏 层 的 
状态 向 量 s/ 和 当前 时 刻 的 输入 向 量 x; ， 输 出 为 当前 时 刻 的 隐藏 层 状态 向 量 s,。 该 单元 的 输出 向 
量 既 要 输入 到 下 一 层 同一 时 刻 的 基本 RNN 单元 ， 也 要 输入 到 同一 层 下 一 个 时 刻 的 基本 RNN 单 
元 。 通 过 不 同时 刻 隐 藏 层 的 状态 传递 ，RNN 模型 实现 了 对 具有 时 间 序 列 特性 的 输入 数据 的 建 模 。 


图 11-2 RNN 单元 的 内 部 结构 图 


在 TensorFlow 中 ，tensorflow/python/ops/rnn_cell impl.py 文件 定义 的 RNNCel1l 类 是 一 个 抽象 
类 , 它 是 RNN 单元 及 其 变种 的 父 类 。 继承 RNNCell 类 的 子 类 有 BasicRNNCell、 BasicLSTMCell、 
GRUCell 和 LSTMCell。 这 些 子 类 都 有 各 自 的 调用 方法 ， 以 实现 类 似 于 图 11-2 所 示 的 虚线 框 内 的 
计算 逻辑 。 

在 RNNCell 类 中 ，call 方法 的 输入 参数 为 input 和 state， 维 度 分 别 为 batch_sizexinput_ 
size 和 batch_sizexstate_size， 它 们 分 别 表示 批量 的 输入 向 量 和 前 一 时 刻 隐藏 层 状态 向 量 。 
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输出 参数 为 output 和 next_state， 维 度 分 别 为 batch_sizexoutput_size 和 batch_sizexstate_size， 
它们 分 别 表示 批量 的 输出 向 量 和 当前 时 刻 隐藏 层 状态 向 量 。 


RNNCe11 类 使 用 @property 装饰 器 装饰 state_size 和 output_size 方法 。 其 子 类 对 象 可 以 
以 属性 的 方式 调用 这 两 个 方法 ， 以 获取 隐藏 层 状 态 向 量 和 输出 向 量 的 维度 。 


RNNCel1 类 的 _rnn_get_variable 方 法 用 于 将 输入 的 variable 划分 为 可 训练 参数 和 不 可 训 
练 参数 ， 并 分 别 保 存 于 该 类 的 成 员 变 量 trainable_weights 和 _non_trainable_weights 中 ， 
相应 的 代码 为 : 


def _rnn_get variable(self, getter, *args, **kwargs): 
variable = getter(*args, **kwargs) 
trainable = (variable in tf_variables.trainable variables() or 
(isinstance(variable, tf _variables.PartitionedVariable) and 
1ist(variable)[6] in tf_variables.trainable variables())) 
if trainable and variable not in self. trainable weights: 
self. trainable weights.append(variable) 
elif not trainable and variable not in self._non trainable weights: 
self._non_trainable weights.append(variable) 
return variable 


RNNCell 通过 zero_state 方法 返回 值 为 0 的 隐藏 层 状态 向 量 : 


def zero_state(self, batch size, dtype): 


with ops.name_scope(type(self)._ name _ + "ZeroState", values=[batch size]): 
state_size = self.state size 


return _zero_state tensors(state size, batch size, dtype) 


在 TensorFlow 中 ,基本 RNN 单 元 由 tensorflow/python/ops/rnn_cell impl.py 中 的 BasicRNNCell 
类 实现 ， 相 应 的 代码 为 : 


class BasicRNNCell(RNNCell]l): 

def _ init (self, num units, activation=None, reuse=None): 
super(BasicRNNCell, self)._ init (_reuse=reuse) 
self. _ num units = num_units 
self. _ activation = activation or math_ops.tanh 

@property 

def state size(self): 
return self._num units 

@property 

def output_ size(self): 
return self._num units 

def call(self, inputs, state): 
output = self. activation(_ linear([inputs, state], self._num units, True)) 
return output, output 


该 类 的 call 方法 调用 了 _linear 方法 ， 将 批量 的 输入 向 量 inputs 和 前 一 时 刻 隐藏 层 状态 
向 量 state 分 别 与 各 自 对 应 的 参数 抢 阵 相 乘 后 再 相 加 得 到 中 间 结 果 ,并 可 以 选择 是 否 添加 偏 置 向 
量 。_linear 方法 得 到 的 中 间 结 果 经 过 _activation 方法 后 得 到 输出 向 量 (或 当前 时 刻 的 隐藏 
层 状态 向 量 )。 在 _activation 方法 中 ， 激 活 函 数 一 般 选择 tanh。 该 call 方法 的 输出 为 两 个 相 
同 的 output， 其 中 一 个 作为 输入 向 量 传人 下 一 层 的 基本 RNN 单元 , 一 个 作为 隐藏 层 状态 传人 当 
前 层 的 下 一 个 基本 RNN 单元 。 


UY 
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11.1.3 LSTM 单 元 


虽然 基本 RNN 单元 可 以 对 具有 时 间 序 列 的 输入 数据 建 模 , 但 是 当 输 入 时 间 序 列 长 度 太 长 时 ， 
RNN 模型 中 较 早 时 刻 的 隐藏 层 状态 很 难 一 直 传递 下 去 ， 这 会 造成 信息 丢失 ， 出 现 长 时 间 依 赖 问 
题 (Long-Term Dependency )。 为 了 解决 这 个 问题 ，Sepp Hochreiter 和 Jiirgen Schmidhuber 于 1997 
年 提出 了 LSTM (Long Short-Term Memory, 长 短期 记忆 ) 单元 , 其 内 部 详细 结构 如 图 11-3 所 示 。 


图 11-3 LSTM 单元 的 内 部 结构 图 


与 基本 RNN 单元 不 同 ，LSTM 的 输出 包含 一 个 记忆 向 量 〈 即 第 8 章 提 到 的 “细胞 状态 ”)， 
表示 综合 了 过 去 时 刻 记忆 和 当前 时 刻 输入 等 信息 后 得 到 的 新 记忆 。LSTM 单元 的 输入 为 前 一 时 刻 
隐藏 层 的 状态 向 量 s;,、 前 一 时 刻 所 得 到 的 记忆 向 量 c/，, ， 以 及 当前 时 刻 的 输入 向 量 x! ; 输出 为 
当前 时 刻 的 隐藏 层 状 态 向 量 % 和 记忆 向 量 ec' 。 

LSTM 内 部 包含 输入 门 ( input gate )、 忘 记 门 ( forget gate )、 记 忆 门 (memory gate ) 和 输出 
门 (output gate )。 输 入 门 根据 x! 和 si 以 及 矩阵 _F! 和 Ui 中 的 参数 决定 x! 对 记忆 向 量 c/ 的 影响 ; 
记忆 门 根据 x!/ 和 si 以 及 矩阵 Wi! 和 UV 中 的 参数 决定 中 间 态 向 量 记 (用 于 产生 新 的 记忆 向 量 c ); 
遗忘 门 根据 x 和 8 以 及 矩阵 丈 ; 和 7x 中 的 参数 决定 前 一 时 刻 的 记忆 向 量 c;_ , 对 当前 记忆 向 量 c 
的 影响 ; 输出 门 根 据 x: 、s 和 ee! 以 及 矩阵 Wy! 和 Ui 中 的 参数 决定 隐藏 层 的 输出 状态 向 量 s'。 在 
LSTM 单元 中 ,记忆 向 量 只 沿 时 间 序 列 方 向 (或 水 平方 向 ) 传递 ， 而 隐藏 层 状态 向 量 则 同时 沿 深 
度 方向 和 时 间 序 列 方向 传递 。 

在 tensorflow/python/ops/rnn_cell impl.py 文件 中 ,继承 于 RNNCell 的 BasicLSTMCell 类 实现 
了 最 基本 的 LSTM 单元 ， 它 们 不 具备 一 些 LSTM 的 高 级 特性 ， 如 单元 裁剪 (cellclipping )\ 投 影 
层 (projection layer )、 宪 视 孔 连接 ( peep-hole connection ) 等 。 在 其 call 方法 中 , 变量 c 和 h(new_c 
和 new_h ) 分 别 表示 输 入 (输出 ) 的 记忆 向 量 和 隐藏 层 状态 向 量 ，i、j、f、o 分 别 对 应 图 11-3 中 
的 及 、 襄 、 凡 、o) 激活 前 的 值 。_linear 方法 用 于 实现 输入 门 、 忘 记 门 、 输 出 门 和 记忆 门 所 对 应 
的 矩阵 计算 。j 和 new_c 对 应 的 激活 函数 是 tanh 或 者 用 户 自 定义 的 函数 ， 其 余 用 到 的 激活 函数 为 
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sigmoid。 该 call 方法 有 两 个 输出 一 一 new_h 和 new_state, 其 中 前 者 用 于 下 一 层 RNN 模块 的 输入 ， 
后 者 表示 当前 时 刻 隐藏 层 状态 向 量 和 记忆 向 量 ,BasicLSTMCe11 类 采用 LSTMStateTuple 数据 结构 ， 
以 tuple 的 形式 顺序 保存 记忆 向 量 和 当前 时 刻 的 隐藏 层 状态 向 量 。 该 call 方法 的 定义 如 下 : 
def call(self, inputs, state): 
sigmoid = math_ops.sigmoid 
if self._state is_ tuple: 
c, h = state 


else: 
c, h = array_ops.split(value=state, num or_size _ splits=2, axis=1) 
concat = _linear([inputs, h], 4 * self._ num units, True) 


i, j, f, o = array_ops.split(value=concat, num_or_size splits=4, axis=1) 
new_c = (c * sigmoid(f + self. forget bias) + sigmoid(i) * self. activation(j)) 
new_h = self._activation(new c) * sigmoid(o) 
if self. state_is tuple: 
new_state = LSTMStateTuple(new_c, new_h) 
else: 
new_state = array_ops.concat([new_c, new_h], 1) 
return new_h, new_state 


11.1.4 ”GRU 单元 


GRU (Gated Recurrent Unit ) 是 RNN 单元 的 又 一 个 变种 ， 也 可 以 解决 长 时 间 序 列 的 记忆 问 
题 ， 常 用 于 机 器 翻译 等 任务 。 与 LSTM 单元 不 同 ，GRU 单元 的 记忆 向 量 并 不 会 显 式 地 在 不 同时 
刻 之 间 传 递 。GRU 单元 比 LSTM 单元 更 为 简单 。 从 大 量 实验 结果 来 看 ，GRU 单元 训练 的 收敛 速 
度 比 LSTM 单元 要 稍微 快 一 些 。 

GRU 单元 的 内 部 结构 如 图 11-4 所 示 。 该 单元 包含 三 种 门 : 重 置 门 (reset gate )、 更 新 门 (update 
gate ) 和 记忆 门 (memory gate )。 重 置 门 根据 x/ 和 ss 以 及 矩阵 歼 ' 和 U!' 中 的 参数 决定 s/ 对 新 的 
记忆 向 量 产 生 的 影响 ; 记忆 门 根据 重 置 门 的 输出 向 量 与 x/ 以 及 矩阵 灭 " 和 UV' 中 的 参数 共同 决定 
了 当前 新 的 记忆 向 量 ; 更 新 门 根 据 x 和 8 以 及 抢 阵 丈 ' 和 UU! 中 的 参数 决定 5/ 对 s! 产生 的 影响 。 


图 11-4” GRU 单元 的 内 部 结构 图 
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在 tensorflow/python/ops/rnn_cell impl.py 文件 中 ,继承 于 RNNCell 的 GRUCe11 类 实现 了 GRU 
单元 。 在 其 call 方法 中 ， 参 数 inputs 和 state 表示 输入 向 量 和 前 一 时 刻 的 隐藏 层 状态 向 量 ， 
变量 r 和 u 表示 重 置 门 和 更 新 门 的 输出 向 量 ,c 表示 由 输入 inputs、r*state 及 其 相应 的 参数 矩 
阵 计 算得 到 的 记忆 向 量 ，new_h 表示 当前 时 刻 的 隐藏 层 状态 向 量 〈 同时 也 表示 输出 向 量 )。 该 方 
法 在 计算 r 和 u 时 采用 的 激活 函数 是 sigmoid， 而 计算 c 时 采用 的 激活 函数 一 般 为 tanh， 也 可 以 
是 用 户 自 定义 的 激活 函数 。 相 关 代码 如 下 : 

def call(self, inputs, state): 

with vs.variable_scope("gates"): 
bias_ones = self. bias initializer 
if self. bias initializer is None: 
dtype = [a.dtype for a in [inputs, state]][8] 
bias_ones = init ops.constant initializer(1.6, dtype=dtype) 
value = math_ops.sigmoid( 
_linear([inputs, state], 2 * self. num units, True, bias_ones, 
self._ kernel initializer)) 
r, u = array_ops.split(value=value, num_or_size splits=2, axis=1) 
with vs.variable_scope("candidate"): 
c = self. activation( 
_linear([inputs, r * state], self._num units, True, 
self._ bias initializer, self. kernel initializer)) 
new h =u* state + (1 - U) * Cc 
return new_h, new_h 


11.1.5 ”双向 RNN 单 元 


在 对 句子 进行 语义 分 析 时 ， 当 前 词 的 语义 要 与 上 下 文 语义 匹配 。 这 里 所 说 的 “上 下 文 ” 不仅 
包括 “上 文 "， 也 包括 “下 文 "。 但是， 图 11-2 所 示 的 基本 RNN 单元 仅 考虑 了 从 太 1 时 刻 到 t 时 
刻 的 状态 转移 ， 即 之 前 时 刻 的 输入 对 当前 的 影响 。 为 了 考虑 未 来 时 刻 的 输入 对 当前 的 影响 ， 充 分 
利用 上 下 文 的 语义 信息 ，Mike Schuster 等 人 发 明了 双向 RNN 单元 。 如 图 11-5 所 示 ， 双 向 RNN 
单元 中 包含 两 个 隐藏 层 状态 ， 它 在 RNN 单元 的 基础 上 添加 了 相反 方向 的 隐藏 层 状态 转移 。 在 t 
时 刻 ,第 /7 层 的 正 反 向 的 隐藏 层 状态 分 别 用 % 和 WW 表示 。 在 正 向 ( 从 左 到 右 ) 传播 路 径 上 的 线性 
变换 矩阵 用 丈 ; 和 Ui 表示， 在 反 向 传播 路 径 上 的 线性 变换 矩阵 用 Wi 和 Ui 表示。 双向 RNN 单元 
本 质 上 可 以 由 两 个 独立 的 基本 RNN 单元 组 合 而 成 , 在 构造 双向 RNN 模型 时 , 我 们 可 以 直接 使 用 
两 个 基本 RNN 单元 ， 因 此 TensorFlow 没有 提供 继承 于 RNNCel1l 类 的 双向 RNN 单元 子 类 。 我 们 
也 可 以 借鉴 双向 RNN 单元 的 思想 构建 双向 LSTM、 双 向 GRU 等 单元 。 

从 双向 RNN 单元 的 原理 来 看 ， 它 适合 处 理 同时 具有 前 后 依赖 关系 的 序列 型 输入 数据 。 除 了 
前 面 提 到 的 句子 语义 分 析 之 外 ， 也 会 有 其 他 场景 需要 用 到 双向 RNN 单元 。 例 如 ， 在 光学 字符 识 
别 (OCR ) 中 , 输入 序列 中 每 一 时 刻 对 应 一 字母 。 对 于 任何 一 个 单词 中 的 某 一 个 字母 ， 其 出 现 的 
概率 与 其 之 前 和 之 后 的 字母 都 有 一 定 关系 。 因 此 ， 当 我 们 观察 到 具体 应 用 中 的 这 种 特征 之 后 ,就 
可 以 选择 双向 RNN 单元 构建 模型 ， 以 提升 模型 准确 率 。 
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图 11-5 双向 RNN 单元 的 内 部 结构 图 


11.1.6” 带 有 其 他 特性 的 RNN 单 元 


基本 RNN 单元 、LSTM 单元 、GRU 单元 等 还 可 以 结合 其 他 特性 ， 从 而 形成 新 的 RNN 单元 
变种 。tensorflow/python/ops/rnn_cell_ impl.py 文件 定义 的 ResidualNrapper、 
DeviceWrapper 、MultiRNNCell 等 包装 器 或 工具 类 都 继承 自 RNNCel1l 类 ， 它 们 分 别提 供 不 同 的 
特性 。 其 中 ，Devicewrapper 比较 简单 ， 主 要 是 使 某 个 具体 的 RNN 单元 运行 在 指定 的 设备 上 ， 
里 就 不 介绍 了 。 下 面 简要 其 他 几 个 类 。 


1. DropoutWrapper 


该 类 提供 Dropout 特性， 可 以 在 一 定 程度 上 避免 模型 太 大 造成 的 过 拟 合 问题 。 在 训练 过 程 的 
每 次 迭代 中 , 输入 向 量 、 隐 藏 层 状 态 向 量 和 输出 向 量 对 应 的 神经 元 分 别 经 过 Dropout 层 以 屏蔽 癌 
量 中 的 部 分 值 , 使 之 不 参与 后 续 计 算 。 在 DropoutWrapper 对 象 初始 化 时 , 需要 指定 input_keep_ 
prob 、output_keep_prob 和 state_keep_prob 参数 。 这 三 个 参数 分 别 给 出 输入 向 量 、 隐 藏 层 状 

态 向 量 和 输出 向 量 的 神经 元 参与 到 后 续 计 算 的 比例 。 相 应 代码 如 下 : 


def _call_ (self，inputs，state，Sscope=None) : 
def _should_dropout(p): 
return (not isinstance(p, float)) or p <1 
if _should dropout(self._input_ keep_prob): 
inputs = self. dropout(inputs, "input", self._ recurrent_input_noise, 
self._input_keep_prob) 
output, new_state = self. cell(inputs, state, scope) 
if _should dropout(self._state keep_prob): 
new_state = self. dropout(new_ state, "state", self._recurrent_ state noise, 
self._state_ keep_prob) 
if _should dropout(self._output_keep_prob) : 
output = self. dropout(output, "output", self._recurrent output_noise, 
self. output_keep_prob) 
return output, new_state 
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2. ResidualWrapper 


Residual 特性 是 指 输入 可 以 直接 与 其 经 非 线 性 变换 后 的 输出 组 合 在 一 起 的 特性 ， 这 使 得 后 向 
梯度 的 传播 更 容易 。9.1 节 介 绍 的 ResNet module 就 具有 这 种 Residual 特性 。ResidualWrapper 
类 提供 Residual 特性 ， 其 关键 代码 如 下 所 示 : 


def _ call_(self, inputs, state, scope=None): 
outputs, new_state = self. cell(inputs, state, scope=scope) 
nest.assert_same_structure(inputs, outputs) 
def assert_shape _ match(inp, out): 

inp.get_ shape().assert is _ compatible with(out.get _ shape()) 

nest.map_structure(assert_ shape match, inputs, outputs) 
res_outputs = nest.map_structure(lambda inp, out: inp + out, inputs, outputs) 
return (res_outputs, new_state) 


该 类 的 _ cal1 _ 方法 首先 得 到 输出 向 量 outputs 和 当前 时 刻 的 隐藏 层 状态 向 量 new_state， 
然后 在 保证 输入 向 量 inputs 和 输出 向 量 outputs 维度 一 致 的 条 件 下 , 将 输入 向 量 和 输出 向 量 对 
加 后 作为 新 的 输出 向 量 res_outputs。 


具有 这 种 特性 的 RNN 模型 可 用 于 对 输入 和 输出 之 间 的 残 差 进行 建 模 。 具 有 Residual 特性 的 
RNN 模型 有 利于 解决 梯度 消失 现象 ， 其 模型 深度 可 以 比 其 他 RNN 模型 更 深 。 


3. MultiRNNCell 


当 训 练 数据 量 增 大 时 ,增加 模型 深度 往往 能 够 获得 更 好 的 精度 。 很 多 自然 语言 处 理 任务 ( 如 
机 器 翻译 ) 都 需要 用 到 多 层 RNN 模型 ,MultiRNNCell 用 于 将 多 个 RNN 堆 释 起 来 形成 多 层 RNN， 
并 将 它们 合并 为 一 个 单元 。 该 类 的 call 方法 的 代码 如 下 : 


def call(self, inputs, state): 
cur_state pos = 6 
cur_inp = inputs 
new_states = [] 
for i, cell in enumerate(self. _ cells): 
with vs.variable_scope("cell %d" % i): 
if self._state is tuple: 
if not nest.is_sequence(state) : 
raise ValueError( 
"Expected state to be a tuple of length %d, but received: %s" % 
(len(self.state_ size), state)) 
cur_state = state[il] 
else: 
cur_state = array_ops.slice(state, [68, cur_state pos], [-1, cell.state sizel]) 
cur_state_pos += cell.state size 
cur_inp, new_state = cell(cur_inp, cur_state) 
new_states.append(new_state) 
new_states = (tuple(new states) if self._state is tuple else 
array_ops.concat(new_states, 1)) 
return cur_inp, new_states 


该 方法 通过 遍历 多 个 cel1， 将 前 一 个 cell 的 输出 向 量 作 为 下 一 个 cell 的 输入 向 量 ， 并 将 
其 中 的 隐藏 层 状态 向 量 保存 在 new_states 中 。 返 回 的 向 量 为 最 后 一 个 cell 的 输出 向 量 和 所 有 


a 


tt 
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cell 的 隐藏 层 状 态 向 量 。 


此 外 ，tensorflow/contrib/rnn/python/ops/core rnn_cell.py 文件 提供 了 EmbeddingWrapper、 
InputProjectionWrapper 和 OutputProjectionWrapper 三 种 类 。 它 们 也 都 继承 自 RNNCel1， 
分 别提 供 带 有 输入 代入、 输入 映射 和 输出 映射 特性 的 RNN 单元 。 


11.2 ”RNN 模型 


在 了 解 了 RNN 模型 的 基本 组 成 部 分 之 后 ， 我 们 有 必要 通过 实例 来 加 深 对 这 类 模型 的 理解 。 
本 市 介绍 两 个 经 典 的 RNN 模型 一 -PTB-LSTM 语言 模型 和 Seq2Seq 模型 。PTB-LSTM 作为 一 种 
典型 的 语言 模型 ， 能 够 预测 一 个 句子 产生 的 概率 ， 和 常用 于 语音 识别 、 语 句 补 全 等 自然 语言 处 理 任 
务 。Seq2Seq 模型 可 以 用 于 建立 两 个 时 间 序 列 数据 之 间 的 关系 ， 主 要 应 用 场景 包括 智能 问答 、 机 
器 翻译 、 文 本 摘要 等 。 分 析 这 两 个 模型 的 实现 原理 ， 有 助 于 读者 体会 RNN 在 利用 输入 数据 的 时 
间 序 列 特性 的 设计 精髓 。 


11.2.1 PTB-LSTM 语 言 模型 


8.2.2 节 已 经 简单 描述 了 语言 模型 的 概念 。 我 们 可 以 通过 语言 模型 得 到 一 个 句子 出 现 的 概率 
并 评价 句子 的 合法 性 。PTB-LSTM 语言 模型 是 基于 PTB ( Penn Treebank ) 数据 集 和 LSTM 模型 
构建 的 语言 模型 。 在 介绍 模型 的 实现 细节 之 前 ， 我 们 先 了 解 一 下 PTB 数据 集 。PTB 数据 集 是 美 
国宾 西法 尼 亚 大 学 LINC (Language Information and Computation ) 实验 室 搜 集 和 标注 (包括 词性 
标注 和 句法 分 析 ) 的 一 套 文本 数据 集 。PTB 数据 集 的 主要 语 料 来 源 是 1989 年 《华尔街 日 报 》 中 
的 2499 篇 文章 〈 约 100 万 词汇 )， 该 数据 集 经 常用 作 训 练 语言 模型 的 语料库 。 


一 


TensorFlow 社 区 models 项 目的 tutorials/rnn/ptb 目录 提供 了 PTB-LSTM 语言 模型 的 训练 程序 。 
该 目录 中 有 三 个 Python 文件: reader.py、reader testpy 和 ptb_model lm.py。 其 中 ，readerpy 用 于 
读 取 PTB 数据 集 的 句子 和 单词 并 进行 相应 的 预 处 理 ，reader testpy 用 于 测试 readerpy 中 的 几 个 
主要 方法 ，ptb_model lm.py 用 于 实现 PTB-LSTM 语言 模型 及 其 训练 步骤。 

readerpy 提供 的 方法 包括 用 于 内 部 逻辑 实现 的 _read_ words、build vocab 和 _ file to _word 
ids， 以 及 作为 对 外 功能 接口 的 ptb_raw_data 和 ptb_producer。 前 三 个 内 部 逻辑 实现 方法 主 
要 用 于 读 取 数据 集 并 标识 单词 。 其 中 ，_read_words 方法 用 于 读 取 指定 数据 集中 的 每 个 单词 ; 
_build_vocab 方法 用 于 得 到 字典 word_to_id, 该 字典 保存 了 指定 数据 集中 每 个 单词 及 其 所 对 应 
的 ID; _file_to_word_ids 方法 用 于 得 到 指定 数据 集中 每 个 单词 的 ID。 

在 reader.py 的 对 外 方法 中 ，ptb_raw_data 方法 封装 了 上 述 内 部 方法 ， 用 于 得 到 训练 、 验 证 
和 测试 所 需 的 数据 集 各 自 包 括 的 单词 ID (分 别 为 train_data、valid data、test_data ) 以 及 
训练 集 对 应 的 字典 (word_to_id ) 长 度 。 其 代码 为 : 


def ptb_raw_data(data_path=None): 
train_path = os.path.join(data_path,，"ptb.train.txt") # 训练 数据 集 
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valid_path = os.path.join(data_path,，"ptb.valid.txt") # 验证 数据 集 
test_path = os.path.join(data_path, "ptb.test.txt") # 测试 数据 集 
word to_id = _build_ vocab(train_path) 

train data = _file to word ids(train_path，word to_id) 

valid data = _file to word_ ids(valid path, word_to_id) 

test data = _file to word_ids(test path, word_ to _id) 

vocabulary = len(word_to_id) 

return train_data, valid data, test data, vocabulary 


ptb_producer 方法 用 于 给 PTB-LSTM 语言 模型 提供 张 量 类 型 的 输入 数据 对 (xyy)。x 和 yy 均 
为 形 如 [batch_size,num_steps] 的 二 维 张 量 ， 张 量 元 素 是 数据 集中 的 单词 D。 假设 x 中 每 个 单 
词 ID 所 对 应 的 单词 为 x(iy), 那么 了 中 相应 位 置 的 了 对 应 的 则 是 原始 句子 中 x(iy) 的 下 一 个 单词 。 
我 们 可 以 将 x 作为 语言 模型 的 输入 数据 , y 作 为 输入 数据 的 “标签 ”。 通 过 不 断 迭 代 训 练 ， 该 模型 
将 具备 根据 已 有 单词 预测 下 一 个 单词 的 能 力 。ptb_producer 方法 的 具体 代码 为 : 


def ptb_producer(raw_data, batch_ size, num_steps, name=None) 
with tf.name_scope(name, "PTBProducer", [raw_data, batch_ size, num_steps]): 
# 将 ptb_raw_data 方法 获得 的 某 一 数据 集 (train_data、valid_data 和 test_data 之 一 ) 
# 中 的 所 有 单词 对 应 的 ID 转化 为 tf.int32 类 型 的 张 量 ， 并 仍 保存 为 raw_data 
raw_data = tf.convert to tensor(raw data, name="raw_data", dtype=tf.int32) 
data_len = tf.size(raw_data) 
batch_len = data_len // batch_size 
# 将 raw_data 变 为 二 维 张 量 data， 第 一 个 维度 batch_size 表示 批 的 大 小 ， 
# 第 二 个 维度 batch_len 表示 该 数据 集 包 含 的 批 的 长 度 
data = tf.reshape(raw data[@ : batch size * batch len], [batch_size, batch_ len]) 
# num_steps 表示 时 间 序 列 方向 上 LSTM 单元 的 个 数 ， 即 LSTM 模型 的 输入 的 单词 数量 ; 
# epoch_size 表示 数据 集 包 含 的 批 的 数量 
epoch_size = (batch len - 1) // num_steps 
assertion = tf.assert positive(epoch_size, message="epoch_ size == 60, decrease batch size 
or num_steps") 
with tf.control dependencies([assertion]): 
epoch_size = tf.identity(epoch size, name="epoch_size") 
# 顺序 产生 从 08 到 (epoch_size-1) 的 序号 
i = tf.train.range_input_producer(epoch_ size, shuffle=False).dequeue() 
# 张 量 X 和 Yy 的 形状 均 为 [batch_size，num_steps]， 通 过 斌 的 变化 可 以 遍历 数据 集中 的 全 部 单词 
x = tf.strided slice(data, [8, i * num_ steps], [batch size, (i + 1) * num_steps]) 
x.set_shape([batch_size, num_steps]) 
y = tf.strided slice(data, [8, i * num_steps + 1], [batch_ size, (i + 1) * num_steps + 1]) 
y 
r 


.Set_shape([batch_size, num_steps]) 
eturn x, y 


ptb_model lm.py 定义 了 用 于 表示 输入 数据 的 PTBInput 类 、 用 于 表示 语言 模型 的 PTBModel 
类 、 四 个 参数 配置 类 一 一 SmallConfig 、MediumConfig、LargeConfig 和 TestConfig， 以 及 用 
于 训练 或 推理 的 run_epoch 等 方法 。 


口 PTBInput 类 是 输入 数据 类 ， 其 对 象 初始 化 代码 如 下 所 示 : 


class PTBInput(object): 
def _init (self, config, data, name=None): 
self.batch_size = batch_ size = config.batch_ size 
self.num_steps = num_steps = config.num_steps 
self.epoch_size = ((len(data) // batch_ size) - 1) // num_step 
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self.input data, self.targets = reader.ptb_producer(data，batch_size，num_steps， 
name=name) 


它 通 过 调用 readerpy 的 ptb_producer 方法 得 到 输入 数据 input_data 和 目标 数据 targets。 


我 们 期 望 基于 LSTM 训练 出 来 的 语言 模型 可 以 根据 之 前 输入 的 单词 自动 预测 出 下 一 个 单词 ， 
从 而 可 以 用 于 生成 句子 或 者 判别 句子 产生 的 概率 。 该 语言 模型 的 示意 图 如 图 11-6 所 示 。 
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图 11-6 ”基于 LSTM 的 语言 模型 示意 图 


口 PTBModel 类 主要 用 于 根据 用 户 的 配置 信息 和 输入 数据 等 构建 基于 LSTM 的 语言 模型 。 该 
类 的 初始 化 函数 完成 超 参 设置 和 模型 建立 。 其 他 水 数 (如 _build_rnn_graph、_build_ 
rnn_graph_cudnn、build_rnn_graph_lstm、_get_lstm_cell ) 通过 调用 TensorFlow 
中 的 LSTM 接口 ， 辅 助 语言 模型 的 建立 。 此 外 ，PTBModel 类 还 提供 了 import_ops 和 
export_ops 函数 ， 方 便 用 户 从 搜集 器 ( collection ) 中 导入 和 导出 模型 会 用 到 的 操作 
(如 _train_op )。 


PTBModel 类 的 初始 化 函数 如 下 : 


def _ init (self, is training, config, input_ ): 
self. is training = is_training # 判断 该 模型 是 否 需 要 被 训练 
self. input = input_ # input 是 一 个 PTBInput 对 和 象 ， 用 于 表示 模型 的 输入 数据 
self._rnn_params = None # 模型 参数 
self._cell = None # 组 成 模型 的 RNN 单元 
self.batch_size = input_.batch_size # 输入 数据 的 批 大 小 
self.num_steps = input_.num_steps # 输入 数据 的 长 度 (以 单词 为 单位 ) 
size = config.hidden_size # 模型 第 一 层 RNN 单元 中 隐藏 层 神 经 元 的 数量 ， 即 每 个 输入 单词 词 向 量 的 长 度 
vocab_size = config.vocab_size # 数据 集中 单词 的 数量 
# 在 CPU 上 完成 词 向 量 查询 
with tf.device("/cpu:0"): 
# embedding 表示 词 向 量 和 矩阵。 该 矩阵 的 行 数 和 列 数 分 别 为 vocab_size 和 size， 
# 矩阵 的 每 一 行 表示 一 个 单词 的 词 向 量 
embedding = tf.get_variable("embedding"，[vocab_size，size]，dtype=data_type()) 
# 通过 input_.input_data 中 的 单词 ID， 在 词 向 量 矩 阵 embedding 中 查询 单词 的 词 向 量 
inputs = tf.nn.embedding lookup(embedding, input_.input_data) 
# 如 果 当 前 模型 处 于 训练 态 ， 并 且 config 对 象 中 设置 了 Dropout 层 的 参数 keep_prob( 该 参数 值 小 于 1)， 
# 则 输入 数据 (已 转换 为 词 向 量 ) 在 输入 到 模型 之 前 需要 先 经 过 Dropout 层 。 
# 采用 Dropout 层 的 好 处 在 于 可 以 在 一 定 程度 上 减缓 模型 过 拟 合 的 风险 
if is training and config.keep prob < 1: 
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inputs = tf.nn.dropout(inputs, config.keep_prob) 

# 通过 内 部 调用 CUDNN 的 LSTM 接口 或 者 TensorFlow 的 LSTM 接口 (具体 选择 由 config 中 的 rnn_mode 决定 ) 
# 建立 LSTM 模型 
output, state = self. _ build _rnn_graph(inputs, config, is training) 
# 输入 数据 经 过 LSTM 模型 处 理 后 进入 输出 层 。 在 输出 层 中 ， 
# 矩阵 softmax_w 的 转 置 与 每 个 LSTM 单元 输出 向 量 相 乘 后 ， 再 与 softmax_b 相 加 ， 得 到 Logits。 
# logits 用 于 表示 输出 单词 在 训练 集 词 库 中 的 索引 
softmax _w = tf.get variable("softmax w", [size, vocab_size], dtype=data type()) 
softmax_b = tf.get variable("softmax_b", [vocab_size], dtype=data type()) 
logits = tf.nn.xw_plus_b(output, softmax _w, softmax_b) 
# 为 了 满足 tf.contrib.seq2seq.sequence_loss 接口 对 logits 形状 的 要 求 ， 将 logits 的 维度 变 为 
# [batch_ size, num_steps, vocab_sizel] 
logits = tf.reshape(logits, [self.batch_ size, self.num steps, vocab_size]) 
# 通过 比较 logits 和 input_.targets, 得 到 当前 输入 数据 在 batch_size 维度 上 损失 有 函数 的 平均 值 loss 
loss = tf.contrib.seq2seq.sequence_loss( 

logits, 

input_.targets, 

tf.ones([self.batch size, self.num steps], dtype=data type()), 

average_across timesteps=False, 

average_across_batch=True) 
# 将 张 量 loss 中 的 所 有 值 归 约 到 一 个 值 ， 并 保存 在 PTBModel 对 象 的 成 员 变 量 _cost 中 
self._cost = tf.reduce_sum(loss) 
self. final_state = state 
if not is training: 

return 

self._lr = tf.Variable(6.0, trainable=False) 
tvars = tf.trainable_variables() 
# 为 了 防止 梯度 爆炸 ， 需 要 根据 config.max_grad_norm 设 定 的 上 限 对 梯度 进行 裁剪 
grads, _ = tf.clip_by_global norm(tf.gradients(self._cost, tvars), config.max_grad_norm) 
optimizer = tf.train.GradientDescentOptimizer(self._1r) 
self. train op = optimizer.apply_gradients(zip(grads, tvars), 

global_step=tf.contrib.framework.get_or_create global_step()) 
# 允许 学 习 速 率 在 训练 过 程 中 被 更 新 
self. new_ lr = tf.placeholder(tf.float32, shape=[], name="new_learning_rate") 
self._lr update = tf.assign(self. lr, self. new_1r) 


口 ptb_model lm.py 提供 的 四 个 预 置 的 配置 类 ( smallConfig、MediumConfig、LargeConfig 
和 TestConfig ) 比较 简单 。 它 们 没有 成 员 函 数 ， 只 是 简单 地 罗列 出 配置 参数 的 键 值 对 。 
这 些 参数 主要 涉及 PTBModel 类 所 用 到 的 一 些 超 参 ， 包 括 跟 模型 大 小 相关 的 超 参 ( 如 
num_steps 和 num_layers 等 ) ， 以 及 跟 训 练 相关 的 超 参 ( 如 batch_size、learning_rate、 
lr_decay 等 ) 。 这 四 个 配置 类 中 所 有 参数 所 对 应 的 键 都 一 样 ， 只 是 值 不 一 样 。 用 户 可 以 
在 这 四 个 配置 类 中 添加 新 的 配置 参数 使 得 模型 训练 或 推理 更 灵活 。 

口 在 训练 PTB-LSTM 语言 模型 时 ， 我 们 通常 要 遍历 多 次 训练 数据 集 。 遍 历 一 次 全 量 数据 称 
为 完成 一 个 epoch。ptb_model lm.py 提供 的 run_epoch 方法 用 于 迭代 运行 一 个 已 创建 的 
PTBModel 模型 对 象 ， 并 在 每 次 迭代 完成 后 获得 该 模型 对 象 的 损失 孙 数 值 。 直 至 完成 一 个 
epoch 的 预 设 迭 代 次 数 之 后 ， 输 出 该 模型 对 象 的 困惑 度 。 困 惑 度 是 描述 语言 模型 准确 性 
的 关键 指标 ， 与 损失 函数 值 正 相关 。 困 惑 度 越 低 ， 语 言 模型 越 准确 。 

综 上 ， 我 们 理解 了 tutorials/rnn/ptb 目录 提供 的 PTB-LSTM 语言 模型 训练 框架 的 基本 原理 。 
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用 户 可 以 模仿 PTB 数据 的 读 取 和 预 处 理 过 程 以 及 PTBModel 的 定义 ,在 reader 模块 和 
ptb_model_lm 中 添加 自 定义 的 数据 集 和 语言 模型 ， 从 而 复 用 这 套 框架 训练 一 个 新 的 语言 模型 。 


11.2.2 ”Seq2Seq 模 型 


Seq2Seq 模型 是 用 来 学 习 一 对 时 间 序 列 数 据 之 间 映 射 关 系 的 模型 ， 它 能 够 应 用 于 智能 问答 、 
文本 摘要 、 机 器 翻译 、 语 音 识别 等 领域 。 该 模型 可 以 基于 基本 RNN 单元 或 其 变种 来 构建 ， 本 节 
主要 介绍 基于 LSTM 单元 的 Seq2Seq 模型 。 如 图 11-7 所 示 ， 该 模型 主要 包括 两 个 部 分 一 一 编码 
器 和 解码 器 , 二 者 均 为 一 层 或 多 层 的 LSTM 模型 ,解码 器 中 第 一 个 输入 GO 表示 输入 句子 的 开始 ， 
最 后 一 个 输出 EOS ( End Of Sentence ) 表示 输出 句子 的 结 


EOS ， 
LISIM| ， 
cell 


ys 


i 


(b) 解码 器 输入 为 自身 产生 的 数据 时 的 模型 示意 图 
(当前 时 刻 LSTM 单 元 的 输入 词 向 量 是 前 一 时 刻 LSTM 单 元 输出 的 词 向 量 ) 


图 11-7 基于 LSTM 单元 的 Seq2Seq 模型 示意 图 


下 面 我 们 以 英法 句子 翻译 为 例 , 介绍 如 何 训练 最 基础 的 Seq2Seq 模型 。 在 训练 数据 中 ,假设 
Xo,…, X7, 为 其 个 英语 句子 中 每 个 单词 的 词 向 量 ，yo,…, y7, 为 语义 相同 的 法 语句 子 中 每 个 单词 的 词 
向 量 。 编 码 需 通过 一 层 或 者 多 层 LSTM 将 输入 的 英语 句子 的 语义 用 上 下 文 向 量 c= g(ho, 有 1,…, hz) 
表示 ， 其 中 g0 为 自 定义 的 非 线 性 函数 ，ho, hi1,…, Ar 为 编码 器 中 每 个 LSTM 单元 的 隐藏 层 状态 。 
为 简单 起 见 ， 在 有 些 Seq2Seq 模型 的 解码 器 中 ， 上 下 文 向 量 e 直接 等 于 和 r,。 在 解码 器 中 ，# 时 刻 
的 输出 向 量 取 决 于 上 时 刻 的 输入 向 量 、 太 1 时刻 隐藏 层 状态 向 量 以 及 编码 需 中 的 上 下 文 向 量 c。 如 
果 不 考虑 编码 需 输 出 的 上 下 文 向 量 e 的 影响 , 解码 需 就 可 以 看 作 前 面 提 到 的 语言 模型 。 一 般 而 言 ， 
当 Seq2Seq 模型 处 于 训练 态 时 ， 解 码 需 在 :时 刻 的 输入 向 量 为 训练 数据 中 的 标签 数据 六 ， 输 出 向 
量 为 解码 器 在 当前 时 刻 的 预测 向 量 y? ， 如 图 11-7a 所 示 ; 当 该 模型 处 于 推理 态 时 ,解码 器 在 t 时 
刻 的 输入 向 量 为 其 在 六 1 时 刻 的 输出 向 量 y*, ， 输 出 向 量 为 当前 时 刻 的 预测 向 量 只 ， 如 图 11-7b 
所 示 。 这 样 依次 循环 下 去 ， 最终 Seq2Seq 模型 输出 了 原 英文 句子 对 应 的 法 语句 子 。 因 此 , 一 般 情 
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况 下 ，Seq2Seq 模型 的 解码 器 在 训练 态 和 推理 态 时 采用 了 两 种 截然 不 同 的 输入 方式 。 不过， 也 存 
在 一 些 情况 ,处 于 训练 态 的 Seq2Seq 模型 可 以 融合 这 两 种 输入 方式 。 比 如 Google 的 研究 员 Samy 
Bengio 等 人 于 2015 年 提出 了 一 种 方法 ， 该 方法 以 一 定 的 概率 决定 1 时 刻 解 码 器 的 输入 是 来 自前 
一 时 刻 解码 器 的 输出 , 还 是 来 自 真实 的 训练 数据 。 这 种 方法 的 好 处 在 于 有 可 能 降低 解码 器 在 训练 
态 和 推理 态 之 间 的 差距 ， 从 而 提升 模型 的 泛 化 性 。 

在 上 述 模型 中 , 解码 右 计 算 每 个 时 刻 的 输出 单词 时 ,用 到 的 上 下 文 向 量 c 都 是 一 样 的 。 为 了 更 
好 地 利用 编码 器 中 的 输入 信息 ，Yoshua Bengio 等 人 提出 了 具有 注意 力 (attention ) 机 制 的 Seq2Seq 
模型 。 在 这 种 模型 的 解码 器 中 ，i 时 刻 的 输出 单词 所 依赖 的 上 下 文 向 量 为 c = py h, exp(q;)/ 
3 exp(qn) 。 其 中 ， 思 为 编码 器 中 j 时 刻 隐藏 层 状态 向 量 ，gy=a(si1,h) 用 于 表示 和 解码 器 中 
全 1 时 刻 的 隐藏 层 状态 向 量 si 之 间 的 吻合 度 (a0 是 用 前 馈 神 经 网 络 表 示 的 非 线性 函数 ), 这 种 注 
意 力 机 制 使 得 每 个 时 刻 输出 的 单词 所 依赖 的 上 下 文 向 量 不 同 ,每 个 时 刻 的 输出 可 以 自 适应 地 选择 
中 间 隐 藏 层 状态 的 组 合 ， 从 而 提升 模型 精度 。 其 实 ,注意 力 机 制 是 一 种 通用 的 机 制 ， 它 最 早 被 应 
用 于 计算 机 视觉 中 的 一 些 任务 ( 如 显著 性 目标 检测 )。 除 了 Seq2Seq 模型 ， 注 意 力 机 制 还 可 以 应 
用 于 其 他 RNN 模型 。 

在 了 解 Seq2Seq 模型 的 基本 原理 之 后 ,我们 结合 代码 讲解 如 何 使 用 TensorFlow 实现 该 模型 。 
TensorFlow 社区 models 项 目的 tutorials/rnn/translate 目录 包含 一 套 英法 翻译 模型 的 简单 实现 ， 其 
主体 代码 位 于 3 个 文件 : data_utils.py、seq2seq_modelLpy 和 translate.py。 其 中 ，data_utils.py 定义 
了 一 些 数据 准备 和 预 处 理 函 数 ，translate.py 提供 了 基于 英法 翻译 数据 集 的 训练 和 预测 功能 ， 
seq2seq_model.py 定义 了 Seq2Seq 模型 。 下 面 重点 介绍 seq2seq_model.py。 

seq2seq_model.py 只 定义 了 一 个 类 , 即 seq2SeqModel。 该 类 除了 包含 用 于 构建 模型 的 初始 化 
方法 之 外 ， 还 提供 get_batch 和 step 方法 ， 它 们 分 别 用 于 获取 单 次 迭代 的 批 训练 数据 和 执行 
次 达 代 的 模型 计算 。Sseq2SeqModel 类 的 初始 化 方法 用 到 的 基础 模型 主要 来 自 于 tensorflow/contrib/ 
legacy_seq2seq/python/ops/seq2seq.py 文件 。seq2seq.py 定义 了 基本 的 Seq2Seq 模型 (basic_rnn_ 
seq2seq ) 及 其 变种 。 这些 变种 包括 tied_rnn_seq2seq、 embedding_rnn_seq2seq、 embedding_ 
tied_rnn_seq2seq .embedding_attention_seq2seq 等 模型 ,它们 主要 是 在 basic_rnn_seq2seq 
基础 上 集成 tied、embedding 和 attention 中 的 一 个 或 多 个 特性 。 其 中 ， tied 特性 是 指 编码 器 和 解码 
器 中 的 LSTM 参数 值 可 以 共享 ， 以 减少 模型 参数 的 规模 ; embedding 特性 是 指 编码 器 和 解码 器 的 
输入 张 量 (用 于 标识 单词 的 离散 值 ) 在 进入 LSTM 单元 之 前 都 需要 先 经 过 embedding 层 ; attention 
特性 是 指 利用 前 面 提 到 的 注意 力 机 制 改 进 模型 。 

下 面 我 们 以 basic_rnn_seq2seq 为 例 ， 介 绍 Seq2Seq 模型 的 代码 实现 。 该 方法 的 定义 如 下 : 


def basic_rnn_seq2seq(encoder_inputs, decoder inputs, cell, dtype=dtypes.float32, scope=None): 
with variable_scope.variable_ scope(scope or "basic rnn_seq2seq"): 
# enc_cell 可 以 为 LSTM、GRU 或 者 其 他 RNN 单元 
enc_cell = copy.deepcopy(cell) 
_, enc_state = rnn.static rnn(enc_cell, encoder inputs, dtype=dtype) 
return rnn_decoder(decoder inputs, enc_state, cell) 
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在 这 个 方法 内 部 ， 我 们 调用 了 tensorflow.python.ops.rnn 模块 的 static_rnn 方法 。 该 
方法 用 于 构建 编码 器 ( 即 一 个 静态 的 RNN 模型 ), 它 的 输入 参数 包括 enc_cell、encoder_inputs 
和 dtype， 它 们 的 含义 如 下 。 


口 enc_cell 表示 构建 编码 器 所 使 用 的 RNN 单元 ， 本 例 中 为 LSTM 单元 。 

口 encoder_inputs 表示 编码 器 的 输入 ， 它 是 由 一 系列 形 如 [batch_size, input_size] 的 
二 维 张 量 组 成 的 列表 ， 列 表 长 度 num_steps 等 于 编码 需 沿 时 间 序 列 方向 展开 后 的 长 度 ， 
batch_size 表示 当前 训练 数据 的 批 大 小 ，input_size 表示 编码 器 中 每 个 LSTM 单元 允 
许 的 输入 词 向 量 的 长 度 。 

口 dtype 表示 输入 输出 状态 的 数据 类 型 。 


static_rnn 的 输出 包括 编码 器 在 各 个 时 刻 的 输出 向 量 ( 记 为 enc_outputs ) 和 最 后 一 个 时 刻 
的 隐藏 层 状 态 向 量 ( 即 上 下 文 向 量 enc_state )。 因 为 enc_outputs 对 于 解码 器 没 用 ， 所 以 上 述 
代码 只 关心 当前 batch 内 每 个 输入 的 句子 对 应 的 上 下 文 向 量 enc_state , 并 将 其 输入 到 解码 器 中 。 


在 basic_rnn_seq2seq 方 法 末尾 ,我 们 调用 的 rnn_decoder 方 法 用 于 构建 解码 器 。rnn_decoder 
方法 的 输入 参数 包括 decoder_inputs、initial_state 和 cell 等 ， 其 中 前 两 个 参数 的 含义 
如 下 。 


D decoder_inputs 表示 解码 器 的 输入 。 类 似 于 编码 器 的 输入 encoder_inputs， 它 也 是 由 
一 系列 二 维 张 量 组 成 的 列表 。 

D initial_state 表示 编码 器 给 解码 器 输入 的 上 下 文 向 量 ， 其 形状 为 [batch_size, cell. 
state_size]， 其 中 cell.state_size 表示 解码 器 中 每 个 LSTM 单元 的 隐藏 导向 量 长 度 。 


在 basic_rnn_seq2seq 方法 中 ， 当 调用 rnn_decoder 方法 时 ，initial_state 被 赋值 为 编 
人 码 絮 输出 的 上 下 文 向 量 enc_state。 rnn_decoder 的 输出 包括 解码 器 在 各 个 时 刻 的 输出 向 量 和 最 
后 一 个 时 刻 的 隐藏 层 状 态 向 量 。rnn_decoder 方法 的 代码 如 下 : 


def rnn_decoder(decoder inputs, initial_state, cell, loop_function=None, scope=None): 
with variable_scope.variable_ scope(scope or "rnn_decoder"): 
state = initial_state # state 表示 解码 器 的 初始 隐藏 层 状态 ,一 般 为 编码 器 输出 的 隐藏 层 状 态 
outputs = [] # outputs 表示 解码 器 的 输出 ,维度 与 decoder_inputs 一 致 
prev = None # prev 表示 解码 器 中 前 一 时 刻 LSTM 单元 的 输出 
for i, inp in enumerate(decoder inputs): 
# 如 果 采 用 loop_function， 那么 解码 器 中 前 一 时 刻 的 输出 会 作为 当前 时 刻 的 输入 。 
# 这 种 情况 常见 于 Seq2Seq 模型 的 推理 态 (或 者 某 些 训练 态 ， 如 前 面 提 到 的 Samy Bengio 等 人 的 方法 ) 
if loop_function is not None and prev is not None: 
with variable_scope.variable_scope("loop_function", reuse=True): 
inp = loop_function(prev, i) 
if i > @: 
# 不 同时 刻 对 应 的 LSTM 单元 内 的 参数 是 共享 的 
variable_scope.get variable_scope().reuse variables() 
output, state = cell(inp, state) 
outputs .append(output) 
if loop_function is not None: 
prev = output 
return outputs, state 
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seq2seq.py 文件 中 的 model_with_buckets 方法 用 于 创建 具有 装 桶 (bucketing ) 特性 的 
Seq2Seq 模型 。 装 桶 是 一 种 以 句子 长 度 为 依据 的 模型 训练 优化 机 制 ， 设计 这 一 机 制 的 动机 是 为 了 
降低 对 长 短 不 一 的 句子 进行 补 零 操 作 带 来 的 开销 。 对 句子 进行 补 零 原本 是 为 了 充分 利用 GPU 等 
设备 的 并 行 计 算 能 力 , 但 过 多 的 补 零 操 作 反而 会 增加 无 谓 的 计算 。 装 桶 技术 将 长 度 接近 的 多 个 句 
子 分 配 到 同一 个 桶 中 ， 从 而 减少 补 零 操 作 。model_with_buckets 方法 的 buckets 参数 表示 每 个 桶 
中 输入 句子 和 输出 句子 的 长 度 对 列表 。 seq2seqModel 类 的 初始 化 方法 调用 了 model_with_buckets 
方法 ,用 于 为 每 一 个 桶 建立 一 个 Seq2Seq 模型 ( 这 些 模型 互相 共享 模型 参数 )， 以 提升 训练 效率 。 


此 外 , 需要 注意 的 是 , seq2seqModel 类 在 构建 损失 函数 时 用 到 了 tf .nn.sampled_softmax 
loss。 该 损失 函数 仅 在 采样 后 的 目标 类 别 ( 即 单词 种 类 ) 上 计算 损失 值 。 对 于 训练 态 ， 当 语料库 
比较 大 、 单 词类 别 很 多 时 ， 这 种 基于 采样 的 损失 函数 计算 方法 可 以 减少 计算 量 ， 从 而 加 速 训 练 。 
但 对 于 推理 态 ， 我 们 希望 能 够 有 绝对 准确 的 损失 值 ， 因 此 不 需要 调用 采样 过 程 。 

通过 对 PTB-LSTM 和 Seq2Seq 模型 的 学 习 ， 我 们 可 以 看 出 ，RNN 模型 的 层 数 虽然 普遍 不 如 
CNN 模型 那样 很 深 ,但 是 它 在 时 间 序 列 方向 上 增加 了 一 个 维度 ， 这 使 得 模型 的 训练 和 推理 计算 
都 会 变 得 更 加 复杂 ,并且 需要 使 用 很 多 新 技巧 。 例如， 为 了 提升 模型 的 精度 ,需要 引入 注意 力 机 
制 ; 为 了 提升 训练 效率 ， 需 要 考虑 装 桶 和 采样 技术 。 然 而 ， 新 增加 的 维度 使 得 RNN 模型 在 时 间 
序列 方向 上 具有 记忆 能 力 ， 因 此 RNN 模型 更 适合 于 解决 具有 时 间 序 列 特性 的 建 模 问题 。 其 实 ， 
我 们 生活 中 很 多 问题 都 具有 时 间 序 列 特性 ， 比 如 语音 、 文 本 、 多 轮 对 话 、 问 答 、 视 频 等 。 如 果 我 
们 能 够 利用 RNN 模型 解决 好 这 些 问 题 ， 那 么 人 工 智 能 的 更 多 应 用 将 被 催 熟 和 落地 。 


11.3 ”小结 


RNN 模型 是 一 种 隐藏 层 的 输出 不 仅 连 接 到 下 一 层 而 且 还 连接 到 自身 的 模型 。 不 同 于 CNN 这 
类 前 馈 型 神经 网 络 模 型 ，RNN 的 输出 和 模型 之 间 具 有 反馈 关系 ， 因 而 能 够 处 理 带 有 时 间 序 列 特 
性 的 输入 数据 。RNN 模型 由 基本 RNN 单元 或 其 变种 组 成 ， 一 个 多 层 的 RNN 模型 是 由 沿 水 平和 
垂直 方向 分 布 的 多 个 RNN 单元 相互 连接 而 成 。LSTM 、GRU 等 变种 单元 在 基本 RNN 单元 上 做 了 
改进 ， 它 们 主要 解决 了 输入 长 度 增长 后 出 现 的 长 时 间 依 赖 问题 。TensorFlow 为 RNN 模型 构建 提 
供 了 若干 接口 , 我们 可 以 利用 它们 构建 语言 模型 或 Seq2Seq 模型 ， 以 便服 务 于 机 器 翻译 、 语 音 识 
别 等 场景 。 
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TensorFlow 运行 时 核心 
设计 与 实现 


学 习 了 TensorFlow 的 应 用 开发 接口 、 上 层 工 作 流 程 ， 以 及 经 典 算法 模型 的 数学 原理 之 后 ， 
我 们 已 经 了 解 了 如 何 利用 TensorFlow 开发 自己 的 机 器 学 习 或 深度 学 习 应 用 程序 。 如 果 想 进一步 


理解 TensorFlow 本 身 的 工作 机 制 ,那么 就 有 必要 深入 运行 时 库 内 部 ,探究 其 设计 原理 。TensorFlow 
的 运行 时 核心 主要 使 用 C++ 语言 开发 , 以 动态 链接 库 形 态 存在 。 它 为 上 层 的 Python 等 多 语言 API 


提供 具体 的 功能 实现 。 本 章 首先 对 TensorFlow 运行 时 框架 进行 整体 全 
组 结构 。 继 而 介绍 关键 数据 结构 、 公 共 基 础 机 制 、 外 部 环境 接口 等 全 局 共 必 


开 说 明 重 要 的 功能 模块 。 


12.1 运行 时 框架 概述 


本 书 1.3 节 展 示 的 TensorFlow 组 件 结构 示意 


介绍 ， 给 出 功能 模块 的 组 


图 已 经 满足 了 普通 用 户 认识 软件 基本 


设计 。 后 续 章 节 将 展 


医 架 的 需 


求 。 然 而 ， 对 于 高 级 用 户 和 二 次 开发 者 ， 有 必要 以 更 细致 的 眼光 审视 运行 时 核心 库 的 内 部 组 件 ， 
这 样 才能 为 理解 TensorFlow 工作 原理 勾画 出 清晰 的 思路 。TensorFlow 运行 时 核心 库 的 内 部 结构 
如 图 12-1 所 示 。 它 的 设计 遵循 层次 化 、 模 块 化 原则 ， 每 个 层次 的 模块 调用 下 层 模 块 实现 的 功能 ， 
并 为 上 层 模块 提供 接口 。 主 要 对 照 源 代码 包 ， 每 个 层次 一 般 对 应 到 tensorflow/core 目录 的 一 至 两 


个 子 目录 。 


C API 


Python API Tova AP 
C++ API 


TensorFlow 运 行 时 核心 


分 布 式 运行 时 


公共 运行 时 
图 优化 尖 内 存 管理 器 


XLA 


核 函 数 
CPU 操作 | | CUDA GPU 操作 | | OpenCL GPU 操作 | … 
j 计算 设备 
GPU (StreamExecutor)| [GPU (SYCD)| [ CPU iseo | [Android] 


图 12-1 TensorFlow 运行 时 库 的 主要 模块 结构 
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运行 时 库 的 关键 数据 结构 与 主要 业务 逻辑 位 于 公共 运行 时 ( common runtime ) 层次 。 该 层次 
可 认为 是 TensorFlow 运行 时 的 中 心 组 件 ， 其 代码 保存 在 common runtime 子 目 录 。 公 共 运 行 时 围 
绕 数据 流 图 这 一 基本 运行 时 抽象 , 实现 了 图 的 优化 器 、 执 行 器 等 模块 。 针 对 计算 过 程 的 生命 周期 
管理 需求 ， 提 供 会 话 抽 象 及 其 执行 模块 。 针 对 进程 内 设备 间 数 据 交换 需求 ， 设 计 了 会 合 点 机 制 。 
此 外 ， 这 一 层 还 包括 内 存 管 理 右 等 公共 组 件 。 理 解 TensorFlow 单机 运行 模式 的 主体 流程 ， 以 及 
分 布 式 运行 模式 中 的 本 地 执行 部 分 ， 均 需要 着 重 分 析 这 一 层次 。 

分 布 式 运 行 时 (distributed runtime ) 层次 服务 于 TensorFlow 的 分 布 式 运行 模式 ， 其 代码 位 于 
distributed runtime 子 目 录 。 分 布 式 运 行 模式 以 Master 和 Worker 抽象 作为 会 话 管理 和 数据 流 图 执 
行 的 主体 ， 基于 gRPC 远程 过 程 调用 库 设计 了 分 布 式 会 话 逻 辑 ， 并 提供 了 跨 设备 执行 数据 流 图 的 
调度 器 。 同时, 该 层次 在 本 地 会 合 点 基础 上 封装 了 远程 会 合 点 机 制 , 作为 跨 进程 数据 交换 的 缓冲 。 
理解 TensorFlow 应 用 中 常见 的 PS-worker 工作 模式 及 其 通信 光 辑 ， 需 要 着 重 关 注 这 一 层次 。 

核 函 数 层次 提供 数据 流 图 上 操作 节点 的 算法 逻辑 。 数 据 流 图 操作 的 接口 定义 和 注册 位 于 ops 
子 目 录 ， 核 函数 针对 不 同 设备 的 具体 实现 位 于 kernels 子 目 录 。TensorFlow 提供 的 数据 流 图 操作 
种 类 众多 ,针对 不 同 设备 的 优化 实现 各 异 , 因此 核 枉 数 层 次 的 文件 数量 相对 庞大 。 对 于 有 兴趣 了 
解 算 法 核 函 数 实现 细节 或 进行 细 粒 度 优化 的 读者 ， 有 必要 阅读 这 一 层次 的 源 代码 。 

与 核 孔 数 功能 并 列 的 XLA ( Accelerated Linear Algebra， 加 速 线 性 代数 ) 模块 是 一 套 可 选 的 
线性 代数 计算 优化 机 制 ， 它 通过 引入 中 间 表 示 层 和 专用 编译 器 ， 以 运行 时 JIT (just-in-time ) 或 运 
行 前 AOT ( ahead-of-time ) 方式 动态 生成 数据 流 图 算法 的 可 执行 代码 ， 取 代 细 粒度 的 核 函数 组 合 ， 
达到 提升 执行 速度 、 优 化 内 存 占用 的 目标 。XLA 为 TensorFlow 引入 了 编译 器 领域 前 后 端 分 离 的 设 
计 思 想 ， 有 助 于 增强 对 异 构 加 速 右 设备 的 可 移植 性 。XLA 相关 代码 位 于 tensorflow/compiler 目录 。 

运行 时 库 的 底层 逻辑 是 通信 网络 与 计算 设备 接 入 模块 。 在 通信 网络 方面 ，TensorFlow 开源 版 本 
通过 gRPC 库 访问 以 太 网 等 TCP/IP 网 络 。Google 公司 内 部 版 本 对 RDMA ( 远程 直接 内 存 访问 ) 通 
信 协 议 的 支持 尚未 在 开源 版 本 中 提供 ， 但 tensorflow/contrib/verbs 目录 提供 了 Yahoo! 公司 贡献 的 另 
一 套 RDMA 通信 组 件 。 在 计算 设备 方面 ，TensorFlow 通过 Eigen、StreamExecutor 等 库 接 人 CPU、 
GPU 等 异 构 设备 。Eigen 库 是 TensorFlow 编译 安装 时 的 外 部 依赖 项 ，StreamExecutor 库 则 直接 集成 在 
TensorFlow 的 源 代码 包 中 。 另 外 , tensorflow/contrib/android 目录 提供 对 Android 终端 设备 的 支持 组 件 。 

在 运行 时 库 的 核心 模块 之 上 ，TensorFlow 封装 了 多 种 语言 API， 它 们 的 源 代码 一 般 位 于 
tensorflow 目录 下 以 语言 名 称 命名 的 子 目录 中 。 其 中 C 语言 API 作为 中 介 层 ， 是 Python 、Java、 
Go 等 语言 API 封装 实现 的 基础 。 需 要 注意 的 是 ，cc 子 目录 下 的 C++API 同 其 他 语言 API 一 样 ， 
属于 应 用 层 开 发 接口 ， 不 要 将 其 与 core 子 目 录 下 的 核心 层 实 现代 码 混 消 。 


12.2 ”关键 数据 结构 


为 了 理解 TensorFlow 运行 时 框架 的 设计 与 实现 ， 进 而 分 析 具 体 组 件 的 功能 原理 ， 有 必要 认 
识 框架 内 部 的 关键 数据 结构 。 这 些 数据 结构 ， 有 些 与 Python 接口 层 的 数据 结构 相对 应 ， 是 其 底 
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层 C++ 实现; 有 些 则 不 对 应 用 开发 者 暴露 概念 和 接口 ， 只 作为 框架 自身 的 逻辑 抽象 。TensorFlow 
的 开发 者 为 了 兼顾 系统 灵活 性 与 高 效 性 , 在 数据 结构 设计 方面 有 不 少 别 具 匠心 之 处 。 理解 这 些 设 
计 ， 亦 有 助 于 读者 增长 开发 技巧 。 

TensorFlow 中 的 部 分 数据 结构 定义 在 Protocol Buffers 文件 (*.proto ) 中 ， 以 便 用 于 gRPC 通 
言 、 检 查 点 存储 等 有 序列 化 需求 的 场景 。 它 们 会 在 代码 构建 时 ， 由 Protocol Buffers 编译 器 生成 
对 应 的 C++ 源 文件 和 头 文件 。 如 果 在 未 编译 的 C++ 源 代 码 包 中 找 不 到 某 个 类 型 的 定义 ， 不 妨 在 
*.proto 文件 中 检索 。 

本 市 介绍 C++ 层面 同 张 量 、 设 备 及 数据 流 图 相关 的 主要 数据 结构 , 这 些 数据 结构 在 TensorFlow 
的 多 个 组 件 中 均 有 使 用 。 专 用 于 特定 组 件 的 其 他 数据 结构 将 在 相关 章节 中 说 明 。 


12.2.1 张 量 相关 数据 结构 


张 量 作为 一 种 基础 数据 表示 模型 ， 是 TensorFlow 的 核心 抽象 ， 也 是 运行 时 内 存 的 主要 占用 
者 和 重点 管理 对 象 。 出 于 支持 异 构 设备 内 存 、 提 高 执行 效率 和 节约 存储 开销 等 原因 ，TensorFlow 
核心 代码 提供 了 多 个 与 张 量 相关 的 数据 结构 ， 用 于 不 同 的 代码 场合 。 图 12-2 给 出 了 与 张 量 相关 
的 主要 数据 结构 的 UML 类 图 。 


TensorShapelter 
—shape : Shape* 
+ operator=—= 
+ Operator++ 


TensorShapeBase 
—kIsPartial 

+dims 
+dim _size 


—u_ :union {uint8[16], Rep64*} 
+num elements 
—buf 


+size : int64 


RefCounted TensorShape TensorSlice 
—ref : std::atomic int fast32 t —starts_: gtl::InlinedVector<int64, 4> 
+Ref +lsSameSize —lengths : gtl::InlinedVector<int64, 4> 
+ Unref +AsEigenDSizes 


TensorBuffer Tensor TensorProto 
—shape_: TensorShape +dtype : DataType 
A -buf :TensorBuffer* +tensor_ shape : TensorShapeProto 


+shape + version_number : int32 = 
+tensor_data +tensor_content: bytes 
+FromProto +[type] val : repeated [type] 


全 
BufferBase 十 AsProtoTensorContent 
#alloc :Allocator* 


上 = 二 4 OQ TensorResponse 
个 ~tensor_: Tensor 
+mutex if ref: mutex* —meta_: RecvTensorResponse 
er 
十 tensor : Tensor* 一 on_host_: bool 


—already_used_: bool 
—device_: DeviceBase* 
—allocator_: Allocator* 
—alloc attrs_: AllocatorAttributes 
+InitAlloc 


—data: T* 
—elem : int64 


+is_ref 
+ data 
+ size 


PersistentTensor 


TensorReference —tensor_: Tensor + ParseFrom 
—buf : TensorBuffer* +AccessTensor +tensor 
+ TsInitialized +metadata 


+ Unref 
+ SharesB 


+AllocatedBytes 


erW 


UniqueTensorReferences 


—frozen_: bool 
一 Teferenced tensors_vector : gtl::InlinedVector<TensorReference, 4> 


+tensor : TensorProto 
+is_dead : bool 
+send_start_micros : int64 


+Add 
十 FreezeAndReturnReferences 


图 12-2” 张 量 相关 类 的 UML 类 图 ( 只 列 出 关键 成 员 变 量 与 方法 ) 
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Tensor 类 是 张 量 最 为 常用 的 抽象 ， 它 适用 于 TensorFlow 运行 时 框架 内 部 的 多 种 场景 ， 包 括 
数据 流 图 操作 节点 的 输入 /输出 、 设 备 无 关 的 张 量 统一 表示 ， 以 及 仅 存储 元 信息 的 临时 变量 等 。 
Tensor 类 的 成 员 变 量 主要 包括 TensorShape 对 象 和 TensorBuffer 指针 ， 成 员 方 法 主要 用 于 访 
间 TensorShape 和 TensorBuffer 的 属性 ,以 及 将 Tensor 类 型 同 其 他 相关 类 型 相互 转换 ,Tensor 
类 具有 多 种 构造 函数 ， 支 持 将 对 象 的 元 信息 构造 过 程 与 缓冲 区 分 配 过 程 分 离 。 

TensorShape 类 用 于 记录 张 量 的 形状 ， 即 多 维 数 组 的 数据 类 型 、 维 数 及 各 维 大 小 。 它 具有 名 
为 TensorshapeRep 和 TensorshapeBase 的 两 级 父 类 ,TensorShapeRep 类 用 于 存储 形状 的 信息 ， 
其 中 表示 张 量 数据 类 型 的 DataType 枚 举 定义 于 types.proto 文件 。 为 了 既 支持 无 限 维度 的 张 量 ， 
又 避免 动态 内 存 管理 开销 , TensorShapeRep 类 采取 一 种 折 中 的 存储 方式 : 对 于 张 量 维 数 较 小 的 情 
况 , 静态 存储 各 维 大 小 ; 对 于 维 数 较 大 的 情况 , 使 用 封装 了 std: :vector 的 gt1: :InlinedVector 
对 象 动态 存储 各 维 大 小 。TensorshapeBase 类 提供 访问 形状 信息 的 接口 , 并 以 模板 方式 支持 形状 
类 的 特 化 实现 。 它 的 辅助 类 型 TensorShapeIter 和 TensorshapeDim 提供 对 各 维 大 小 的 遍历 访 
问 功 能 。 同 张 量 形 状 相 关 的 还 有 Tensorslice 类 ， 它 通过 一 组 映射 到 每 个 维度 的 “起 点 -长 度 ” 
整数 对 ， 描 述 一 个 形状 在 一 组 维度 上 的 分 片 ( slice )。 该 类 主要 用 于 检查 点 操作 对 张 量 局 部 存 取 
的 需求 。 

TensorBuffer 类 用 于 管理 存储 张 量 数据 的 内 存 缓冲 区 。 它 继承 了 RefCounted 类 ， 具 有 引 
用 计数 能 力 。RefCounted 对 象 构造 时 ， 引 用 计数 置 为 1; 调用 Ref 或 Unref 方法 可 将 引用 计数 
加 1 或 减 1; 引用 计数 为 0 时 对 象 的 析 构 函数 将 被 调用 。TensorBuffer 类 提供 data 和 size 虚 
方法 ， 用 于 取得 缓冲 区 的 常量 指针 及 大 小 ; 另 提供 base 方法 ， 用 于 取得 缓冲 区 的 可 写 指针 。 
TensorBuffer 的 子 类 BufferBase 及 二 级 子 类 Buffer 分 别 以 非 模 板 化 和 模板 化 方式 实现 了 组 
冲 区 管理 , 后 者 是 TensorFlow 代码 中 实际 常用 的 类 型 .Buffer 类 的 data_ 指针 指向 张 量 缓冲 区 ， 
该 缓冲 区 可 以 位 于 主机 ( CPU ) 内 存 或 是 设备 (GPU ) 内 存 。Buffer 类 的 构造 函数 传 入 的 
Allocator 及 AllocationAttributes 类 型 的 参数 用 于 指定 缓冲 区 的 内 存 分 配器 及 内 存 属性 。 
在 使 用 重 载 过 的 赋值 操作 符 复 制 Tensor 对 象 时 ， 内 部 的 Tensorshape 对 象 和 TensorBuffer 

§ 针 得 以 复制 ,而 TensorBuffer 子 类 对 象 及 其 指向 的 缓冲 区 内 容 不 会 被 复制 ,它们 将 在 Tensor 
对 象 之 间 复 用 。 引 用 计数 机 制 使 得 缓冲 区 复 用 行为 能 够 被 精确 记录 ， 直 到 没有 对 象 引用 该 缓冲 区 
时 才 释 放 内 存 资源 。 

张 量 的 另 一 种 主要 存储 格式 是 TensorProto 类 ， 该 类 定义 于 tensorproto 文件 。 它 主要 用 于 
基于 gRPC 通信 库 的 进程 间 张 量 传输 及 相关 场景 。TensorProto 类 的 成 员 包括 DataType 对 象 、 
TensorShapeProto 对 象 、tensor_content 字 节 数组 ,以 及 十 余 种 不 同 数据 类 型 的 重复 型 (repeated ) 
Protocol Buffers 字段 (相当 于 C++ 数组 或 向 量 )。 其 中 ， 表 示 形 状 的 TensorShapeProto 类 同 
Tensorshape 类 基本 等 价 , 但 其 存储 形式 易于 序列 化 。 字 节 数 组 和 重复 型 字段 是 张 量 在 
TensorProto 对 象 中 两 种 互 斥 的 表达 形式 ， 任 何 TensorProto 对 象 只 会 在 字 节 数组 和 十 余 种 重 
复 型 字段 中 选择 唯一 一 个 字段 存储 张 量 数据 。 字 节 数 组 形式 可 以 序列 化 存储 任何 类 型 的 张 量 数 
据 ， 具 有 通用 和 传输 效率 高 的 优势 。 重 复 型 字段 形式 可 以 向 量化 存储 DataType 对 应 类 型 的 张 量 
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数据 , 具有 易 用 性 的 优势 。Tensor 类 的 AsProtoTensorContent 和 AsProtoField 方法 用 于 生成 
这 两 种 表达 形式 的 TensorProto 对 象 。Tensor: :FromProto 方法 则 相反 ， 用 于 解析 TensorProto 
数据 , 填充 Tensor 对 象 的 缓冲 区 。TensorProto 对 象 始 终 保 存在 主 存 中 , 以 便 gRPC 库 直接 访问 。 


与 中 PC 通信 过 程 相关 的 还 有 RecvTensorResponse 和 TensorResponse 类 。RecvTensorResponse 
类 是 定义 在 workerproto 文件 中 的 、 用 于 gRPC RecvTensor 服务 接口 的 响应 消息 类 。 它 以 
TensorProto 成 员 作 为 数据 载体 ,同时 记录 了 响应 张 量 的 一 些 属性 ,TensorResponse 类 是 Tensor 
类 的 封装 形式 ,能 够 以 高 效 的 方式 将 保存 在 gRPC 消息 中 的 TensorProto 对 象 反 序列 化 为 Tensor 
对 象 。 TensorResponse 对 象 包含 一 个 Tensor 成 员 、 一 个 用 于 保存 张 量 属性 的 RecvTensorResponse 
成 员 ， 以 及 一 组 与 设备 和 内 存 分 配 相关 的 指针 。13.3.3 节 将 详 述 TensorResponse 类 的 设计 实现 
原理 及 其 与 RecvTensorResponse 类 的 关系 。 


TensorReference 类 用 于 持 有 Tensor 对 象 的 引用 ， 从 而 保证 在 显 式 指定 的 周期 之 内 ， 引 用 
的 Tensor 对 象 始终 不 会 被 析 构 。 它 的 唯一 成 员 变 量 是 TensorBuffer 指针 ， 其 工作 原理 是 在 构 
造 对 象 时 增加 TensorBuffer 的 引用 计数 ， 调 用 Unref 方法 时 减少 TensorBuffer 的 引用 计数 。 
TensorReference 类 主要 用 在 一 些 异 步 回 调 函 数 访问 Tensor 对 象 的 场合 。 外 层 代码 在 回调 函数 
对 象 定义 时 创建 TensorReference 对 象 ， 确 保 将 来 回调 函数 被 调用 时 ， 直 接 或 间接 作为 捕获 参 
数 的 Tensor 对 象 仍然 可 用 。TensorFlow 另 提供 保存 独 一 (unique ) TensorReference 对 象 集合 
的 UniqueTensorReferences 类 ， 该 类 型 主要 用 于 在 操作 上 下 文 (OpKernelContext ) 对 象 中 统 
一 管理 一 组 Tensor 对 象 引用 。 


TensorValue 结构 是 另 一 种 持 有 Tensor 对 象 引 用 的 类 型 ， 它 主要 作为 数据 流 图 上 操作 节点 
输入 /输出 张 量 的 内 部 存储 类 型 。 该 结构 包含 一 个 Tensor 指针 和 一 个 互 斥 锁 ( mutex ) 指针 ， 可 
以 实现 多 个 操作 共享 同一 个 Tensor 对 象 ， 并 且 通 过 加 锁 方 式 安全 地 对 同一 Tensor 对 象 实施 读 
写 。 为 操作 节点 提供 安全 访问 张 量 缓冲 区 能 力 的 数据 结构 还 有 PersistentTensor 类 。 它 封装 
Tensor 对 象 而 非 指针 ， 提 供 AccessTensor 、IsInitialized 等 方法 。 操 作 节 点 通过 该 类 访问 张 量 


时 ，AccessTensor 方法 能 够 通知 OpKernelContext 对 象 ,将 张 量 的 引用 ( 即 TensorReference 对 
象 ) 加 入 当前 上 下 文 的 UniqueTensorReferences 成 员 , 从 而 确保 张 量 在 操作 生命 周期 内 的 可 用 性 。 


12.2.2 设备 相关 数据 结构 


设备 是 对 提供 计算 能 力 的 硬件 的 抽象 。 在 服务 器 端 ，TensorFlow 的 开源 版 本 目前 支持 CPU 
以 及 CUDA、OpenCL 这 两 类 编程 模型 的 GPU 作为 计算 设备 。TensorFlow 核心 代码 提供 一 组 层次 
化 的 数据 结构 ,用 于 管理 属性 各 异 的 设备 。 同 时 提供 一 些 辅助 数据 结构 ， 帮 助 设备 管理 机 制 与 其 
他 核心 机 制 协同 工作 。 图 12-3 给 出 了 设备 相关 的 主要 数据 结构 的 UML 类 图 。 

DeviceBase 类 是 所 有 设备 类 型 的 基 类 ， 主 要 功能 是 存储 与 设备 相关 的 内 部 对 象 的 指针 。 它 
的 成 员 变 量 包括 指向 Env、 CpuWorkerThreads、GpuDeviceInfo、Eigen::ThreadPoolDevice 
和 Eigen::SyclDevice 对 象 的 指针 ， 成 员 方法 主要 用 于 对 上 述 变量 进行 访问 。Env 类 封装 了 与 
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操作 系统 相关 的 功能 接口 ， 包 括 文件 系统 访问 、 线 程 管 理 、 动 态 库 加 载 、 计 时 等 ， 用 于 通过 设备 
访问 与 其 关联 的 系统 环境 。Env 类 的 实现 子 类 包括 PosixEnv 和 WindowsEnv 等 。DeviceBase 类 
的 其 他 成 员 变 量 用 于 保存 不 同类 型 设备 所 需 的 元 信息 指针 。 这 些 变量 放置 在 基 类 而 非 子 类 中 , 与 
设备 类 的 继承 顺序 设计 相关 ， 同 时 也 方便 部 分 函数 直接 使 用 基 类 指针 操作 具体 子 类 。 其 中 ， 
CpuWorkerThreads 结构 封装 了 TensorFlow 内 部 定义 的 thread: :ThreadPool 类 型 指针 , 是 CPU 设 
备 的 线程 池 抽 象 ,可 将 函数 调度 到 CPU 上 执行 ,GpuDeviceInfo 结构 封装 了 perftools: :gputools: : 
Stream、DeviceContext 和 EventMgr 指针 ， 用 于 管理 CUDA GPU 设备 的 执行 流 与 事件 ， 能 够 
将 计算 任务 加 载 到 GPU 上 执行 ， 以 及 实现 跨 设 备 的 内 存 复制 。Eigen: :ThreadPoolDevice 结构 
是 Eigen 库 对 CPU 设备 的 线程 池 抽 象 ， 在 一 部 分 计算 类 操作 节点 中 使 用 。Eigen: :SyclDevice 
结构 是 Eigen 库 对 OpenCL GPU 设备 的 抽象 ， 用 于 管理 该 类 设备 的 计算 任务 与 内 存 访问 。 


| | en :Env | 
+ Register —cpu_worker threads_: CpuWorkerThreads* + stream 
+ GetFactory —gpu_device info_: GpuDeviceInfo* + CopyCP UTensorToDevice 


+ AddDevice: —eigen cpu_ device_: Eigen::ThreadPoolDevice* + CopyDeviceTensorToCPU 


JreateDevice: —eigen sycl device :Eigen::SyclDevice* 人 八 
人 SYCLDeviceContext 
pr 
A um | Oop CPUTersorToDe i 
+ FindMatchingDevices —device attributes_: DeviceAttributes + CopyDeviceTensorToCPU 
+FindDeviceByName —rmgr : ResourceMer* 


Tname 
+device type 一 Stream_ : Stream* 

+ Compute —host_to_device_stream : Stream* 
+ComputeAsync 
+ Sync 


DeviceMer 
—devices_: DeviceVec 


+LookupDevice ‘> 


一 device to_host_stream :Stream* 
—device to_device stream : Stream* 
+stream 

+CopyCPUTensorToDevice 


+ListDevices 


+ CopyDeviceTensorToCPU 
+Syne A > 
[|_|| | 

a 个 

[| | 

# gpu_allocator : Allocator* 
#cpu allocator : Allocator* 一 cpu_allocator : Allocator* 
#executor : StreamExecutor* —sycl_allocator_: SYCLAllocator* 

+Compute —sycl device_ : Eigen::SyclDevice* 

De ER 


[| + ComputeAsync + Compute 
on | :Syne :Syne 


图 12-3 设备 相关 类 的 UML 类 图 (只 列 出 关键 成 员 变 量 与 方法 ) 


Device 类 继承 自 DeviceBase 类 , 主要 功能 是 存储 设备 本 身 的 元 信息 , 并 为 上 层 代 码 使 用 不 
同 设备 的 计算 能 力 提 供 统一 的 接口 。 它 的 主要 成 员 变 量 包括 设备 属性 类 DeviceAttributes 的 对 
象 ， 以 及 指向 该 设备 关联 的 资源 管理 器 ResourceMgr 对 象 的 指针 。DeviceAttributes 类 定义 在 
device_attributes.proto 文件 中 ， 用 于 记录 设备 的 元 信息 ， 包 括 设备 名 称 、 类 型 、 内 存 容量 等 。 
ResourceMgr 类 以 键 值 对 方式 记录 与 具体 操作 节点 相关 的 、 抽 象 为 ResourceBase 类 型 的 逻辑 资 
源 ， 并 提供 资源 的 新 增 、 删 除 、 查 找 等 接口 。Device 类 的 主要 成 员 方法 包括 访问 设备 元 信息 的 
name、device_type 等 方法 , 以 及 访问 设备 计算 能 力 的 Compute、ComputeAsync 和 Sync 等 虚 方法 。 
子 类 实现 的 Compute 和 computeAsync 方法 用 于 将 操作 节点 提交 到 本 设备 上 同步 或 异步 执行 ， 
Sync 方法 用 于 阻塞 等 待 设备 操作 队列 上 的 所 有 调用 完成 。 
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Device 类 的 子 类 LocalDevice 和 RemoteDevice 分 别 是 对 本 地 设备 和 远程 设备 的 抽象 。 本 
地 和 远程 的 概念 以 进程 为 界定 单位 , 本 进程 注册 的 本 服务 器 上 的 设备 称 为 本 地 设备 ; 本 进程 通过 
gRPC 通信 机 制 访问 的 其 他 进程 注册 的 设备 ， 无 论 是 否 和 本 进程 位 于 同一 人 台 服 务 器 ， 均 称 为 远程 
设备 。LocalDevice 类 在 Device 类 的 基础 上 主要 增加 了 EigenThreadPoolInfo 指针 成 员 , 用 于 
记录 Eigen 库 线程 池 的 元 信息 。LocalDevice 类 的 构造 函数 会 对 基 类 线程 池 相 关 成 员 进 行 初始 化 。 
RemoteDevice 类 是 远程 设备 在 本 地 的 “存根 ”( stub )， 它 在 Device 类 的 基础 上 增加 了 不 含 位 置 前 
缀 的 本 地 设备 名 称 字 段 。TensorFlow 提供 NewRemoteDevices 全 局 函数 ,用 于 创建 GrpcRemoteWorker 
对 象 管理 的 所 有 远程 设备 对 应 的 RemoteDevice 对 象 集合 。 

ThreadPoolDevice 类 (这 里 指 tensorflow: :ThreadPoolDevice 类 , 而 非 Eigen: :Thread- 
PoolDevice 结构 ) 是 针对 CPU 设备 的 LocalDevice 子 类 ， 实现 了 Compute 、Sync 等 方法 。 
ThreadPoolDevice: :Compute 方法 调用 数据 流 图 操作 节点 的 Compute 方法 , 同步 执行 相应 操作 。 
CPU 设备 上 的 异步 操作 不 通过 ThreadPoolDevice 类 执行 ,而 是 使 用 Eigen 库 的 线程 池 机 制 管 理 。 
BaseGPUDevice 类 是 针对 CUDA GPU 设备 的 LocalDevice 子 类 , 实现 了 Compute 、ComputeAsync、 
Sync 等 方法 。 这 些 方法 通过 StreamExecutor 库 的 流 管理 机 制 调度 数据 流 图 操作 节点 的 执行 。 针 
对 CPU 一 GPU 内 存 复制 等 互 操作 和 需求，ThreadPoolDevice 和 BaseGPUDevice 类 分 别 具 有 名 为 
GPUCompatibleCPUDevice 和 GPUDevice 的 子 类 。 它 们 实现 了 GetAllocator 方法 ， 能 够 按 需 获 
取 适 当 的 内 存 分 配器 。SYCLDevice 类 是 针对 OpenCL GPU 设备 的 LocalDevice 子 类 ， 实现 了 
Compute 和 Sync 等 方法 。TensorFlow 开源 版 本 现 阶段 对 OpenCL GPU 设备 的 支持 相对 有 限 ， 高 
级 特性 的 支持 程度 不 如 CUDA GPU 设备 丰富 。 

在 TensorFlow 中 ， 设 备 上 下 文 抽象 用 于 管理 与 设备 当前 执行 状态 相关 的 变量 ， 并 提供 设备 
间 互 操作 的 方法 .DeviceContext 类 是 设备 上 下 文 的 基 类 , 它 定义 了 访问 GPU 设备 流 抽象 的 stream 
虚 方 法 , 以 及 用 于 CPU 一 GPU 内 存 间 复 制 的 CopyCPUTensorToDevice 和 CopyDeviceTensorToCPU 
虚 方 法 。CUDA GPU 的 上 下 文子 类 是 GPUDeviceContext 类 , 它 管理 了 StreamExecutor 库 提供 的 
多 种 执行 流 ,， 并 基于 这 些 流 上 的 异步 操作 实现 了 设备 内 存 间 复制 函数 。OpenCL GPU 的 上 下 文子 
类 是 SYCLDeviceContext 类 ， 它 基于 Eigen 库 封装 的 内 存 管理 机 制 实现 了 设备 内 存 间 复制 函数 。 

Deviceset 类 是 设备 集合 的 抽象 。 它 以 向 量 方式 存储 一 组 设备 对 象 指 针 , 提供 在 集合 中 增加 、 
查找 和 枚 举 设 备 的 方法 , 并 支持 设备 按 类 型 排序 。DeviceSet 类 主要 用 于 数据 流 图 操作 节点 调度 
场合 。DeviceMgr 类 是 设备 管理 器 的 抽象 ,也 可 看 作 是 一 种 设备 集合 类 。 它 同样 以 向 量 方式 存储 
一 组 设备 对 象 指针 ， 提 供 枚 举 、 查 找 设备 及 列举 所 有 设备 属性 的 方法 。 在 会 话 、 会 合 点 和 进程 间 
通信 等 场合 ，DeviceMgr 类 用 于 统一 管理 相应 机 制 关 联 的 所 有 设备 。 

Device 类 的 对 象 实例 创建 采用 工厂 模式 .Device 工厂 的 基 类 是 DeviceFactory 类 。 同 Device 
类 的 继承 结构 类 似 , 工厂 类 也 有 层次 化 的 实现 子 类 , 包括 ThreadPoolDeviceFactory、 BaseGPU- 
DeviceFactory、 GPUCompatibleCPUDeviceFactory、GPUDeviceFactory 和 SYCLDeviceFactory。 
DeviceFactory 类 的 静态 方法 Register 和 GetFactory 用 于 注册 和 获取 针对 特定 类 型 设备 的 工 
厂 ， 静 态 方法 AddDevices 用 于 将 本 地 所 有 满足 特定 约束 的 Device 对 象 以 指针 向 量 形式 输出 。 
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AddDevices 方法 内 部 调用 不 同 设备 工厂 子 类 实现 的 CreateDevices 方法 ,完成 设备 子 类 的 对 象 
实例 创建 。 


另外 , 由 于 GPU 设备 是 TensorFlow 开源 版 本 支持 的 主要 加 速 器 ，TensorFlow 还 提供 了 若干 
辅助 数据 结构 ， 用 于 维护 GPU 设备 的 细节 信息 。 这 些 数据 结构 定义 在 perftools: :gputools 命 
名 空间 ， 包 括 用 于 描述 人 硬件 参数 、 服 务 于 streamExecutor 调度 的 DeviceDescription 类 ， 用 
于 以 位 元 组 方式 记录 设备 初始 化 选项 的 Deviceoptions 结构 ， 以 及 用 于 描述 和 管理 设备 内 存 的 


DeviceMemoryBase、DeviceMemory 和 SharedDeviceMemory 类 等 。 


12.2.3 ”数据 流 图 相关 的 数据 结构 


在 TensorFlow 代码 中 ， 数 据 流 图 作为 对 计算 过 程 的 核心 抽象 ， 占 有 重要 地 位 。 数 据 流 图 相 
关 的 数据 结构 众多 , 涵盖 了 图 的 构建 与 执行 的 全 生命 周期 , 涉及 计算 关系 的 静态 表示 与 计算 流程 的 
动态 调度 。 图 12-4 首先 给 出 了 TensorFlow 的 Protocol Buffers 协议 定义 中 ， 与 数据 流 图 相关 的 主要 
数据 结构 的 UML 类 图 。 这 些 数据 结构 大 多 定义 在 tensorflow/core/framework 目录 下 的 .proto 文件 中 。 


+op : string 

+device_type: string + description : string 
十 constraint : TepeatedAttrConstraint +type :DataType 
十 host memory arg :repeated string +is ref : bool 


+default_value: AttrValue 
+allowed values: AttrValue 


十 producer : int32 
十 min_consumer : int32 
十 bad_consumers : repeated int32 


十 name: string 

十 op : string 

+input : Tepeated string 
+device : string 

+attr: map<string, AttrValue> 


+value: oneof {... } 
| 


+node : repeated NodeDef 
A + library : FunctionDefLibrary 
+ versions : VersionDef 
+version : int32 
| | 


> 


FunctionDefLibrary 
+function : repeated FunctionDef 
+ gradient : repeated GradientDef 

| 
S 


GradientDef 
+function name: string 
十 gradient func : string 


> 


+input_arg: repeated ArgDef 
+output_arg : repeated ArgDef 
+attr repeated AttrDef 


> 
+op : repeated OpDef 


+signature : OpDef 

+attr: map<string, Attr Value> 
+node_def : repeated 
+ret : map<string, str 


图 124 ”Protocol Buffers 协议 定义 中 数据 流 图 相关 类 的 UML 类 图 ( 只 列 出 关键 成 员 变 量 与 方法 ) 


在 Protocol Buffers 协议 代码 中 ， 数 据 流 图 的 数据 结构 为 GraphDef 类 ， 它 的 关键 成 员 是 重复 
型 NodeDef 类 型 的 node 字段 ， 即 数据 流 图 所 包含 的 节点 列表 。 该 类 有 两 个 表示 序列 化 数据 格式 
版 本 的 成 员 ， 分 别 为 VersionDef 类 型 的 versions 和 int32 类 型 的 version， 二 者 用 于 在 多 个 
TensorFlow 版 本 共存 的 分 布 式 环境 中 ， 确 保 数据 格式 的 兼容 性 。 前 者 是 TensorFlow 主推 的 “ 语 
义 化 版 本 ”( Semantic Versioning， 具 体 定义 可 参见 http://semver.org/ ) 表示 方式 ， 后 者 仅 用 于 与 
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TensorFlow 早期 版 本 兼容 。 有 关 序 列 化 数据 格式 的 版 本 演进 历史 ， 可 参考 tensorflow/core/public/ 
version.h 文件 对 TF_GRAPH_DEF_VERSION 宏 的 注释 。 此 外 ， 该 类 还 包含 FunctionDefLibrary 类 
型 的 library 字段 ， 用 于 记录 用 户 自 定义 的 函数 。 

表示 操作 的 数据 结构 为 opDef 类 , 该 类 的 对 象 表达 的 是 一 类 特定 操作 的 共有 特征 , 而 非 一 幅 
数据 流 图 上 的 某 个 具体 操作 节点 。 该 类 的 主要 成 员 包 括 string 类 型 的 name、 重 复 型 ArgDef 类 
型 的 input_arg 和 output_arg， 以 及 重复 型 AttrDef 类 型 的 attr 等 。name 成 员 定 义 操作 的 名 
称 ， 具 体 可 参考 tensorflow/core/ops 目录 下 操作 相关 代码 调用 REGISTER_OP 安 注册 操作 时 所 定义 
的 名 称 。ArgDef 类 用 于 描述 操作 的 输入 或 输出 参数 ， 其 成 员 定 义 了 参数 的 名 称 和 数据 类 型 等 信 
息 。AttrDef 类 用 于 描述 操作 所 有 具有 的 属性 ， 其 成 员 定义 了 属性 的 名 称 、 数 据 类 型 和 默认 值 等 信 
息 。0pDef 类 的 集合 类 型 是 opList 类 。 

表示 操作 对 应 的 算法 核 函 数 的 数据 结构 为 kernelDef 类 。 一 个 KernelDef 实例 由 一 种 操作 、 
一 种 设备 及 一 组 约束 条 件 确定 。string 类 型 的 op 和 device_type 字段 指示 核 函数 对 应 的 操作 
名 称 及 设备 类 型 ， 重复 型 AttrConstraint 类 型 的 constraint 成 员 给 定 操作 属性 的 取 值 范围 约 
束 ， 重 复 型 string 类 型 的 host_memory_arg 成 员 指 定 需 要 保存 在 主机 内 存 上 的 操作 参数 名 称 。 

数据 流 图 节点 的 数据 结构 为 NodeDef 类 。 其 中 ，string 类 型 的 name、op 和 device 成 员 分 
别 记录 节点 的 名 称 、 操 作 名 和 设备 名 。 重 复 型 string 类 型 的 input 成 员 记 录 本 节点 连接 的 输入 
节点 。map 类 型 的 attr 成 员 以 键 值 对 方式 记录 与 特定 操作 相关 的 属性 集合 。 节 点 名 称 依 据 操作 
的 不 同 会 有 不 同 的 格式 ， 同 一 幅 数据 流 图 中 的 节点 名 称 不 能 重复 。 在 作为 input 成 员 元 素 时 , 节 
点 名 称 可 以 选择 性 地 添加 “:[ 输 出 张 量 序 号 ]” 后 级 ， 用 于 说 明 输 入 节点 的 哪个 输出 张 量 连接 到 
本 节点 。 操 作 名 的 取 值 是 操作 对 应 的 opDef 对 象 的 name 值 ， 同 种 操作 的 名 称 相同 。 设 备 名 的 一 
般 格式 为 “@[ 主 机 名 ]/job:[ 作 业 名 称 ]/replica:[ 副 本 ID]/task:[ 任 务 ID]/[cpu|gpu]:[ 设 备 
ID]”。 属 性 集合 attr 的 键 类 型 为 string, 其 取 值 为 属性 在 opDef 中 对 应 的 AttrDef 对 象 的 name 
值 。attr 的 值 类 型 为 AttrValue ， 该 类 通过 Protocol Buffers 的 oneof 型 字段 (类 似 于 C/C++ 的 
union ) 支持 多 种 不 同类 型 的 属性 值 。 

截至 TensorFlow 1.2 版 本 ,数据 流 图 上 的 自 定义 函数 仍 是 一 个 实验 性 特性 ， 用 于 封装 并 复 用 
一 组 以 固定 模式 组 合 的 操作 。 如 果 图 中 某 个 NodeDef 对 象 的 op 值 不 是 TensorFlow 固有 的 OpDef 
类 所 定义 的 操作 名 称 ， 而 是 GraphDef 对 象 的 1ibrary 字段 所 管理 的 自 定义 函数 名 称 , 那么 当 该 
节点 的 输入 就 绪 时 ， 自 定义 函数 会 被 调用 。 自 定义 函数 由 FunctionDefLibrary 类 管理 。 
FunctionDefLibrary 类 只 有 两 个 成 员 ， 即 重复 型 FunctionDef 类 型 的 function 和 重复 型 
GradientDef 类 型 的 gradient。FunctionDef 类 用 于 描述 自 定 义 函 数 的 元 信息 ，GradientDef 
类 用 于 记录 自 定 义 函 数 对 应 的 梯度 计算 函数 。 

接 下 来 关注 TensorFlow 核心 的 C++ 代码 中 的 数据 结构 定义 。 相 比 于 主要 用 于 元 信息 存储 和 
序列 化 表示 的 Protocol Buffers 数据 结构 ，C++ 类 型 定义 更 注重 对 数据 的 操作 , 以 便于 数据 流 图 执 
行 逻辑 的 高 效 实现 。 图 12-5 给 出 了 C++ 代码 中 与 数据 流 图 相关 的 主要 数据 结构 的 UML 类 图 。 
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+LookUp | | 
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+Gilobal 
图 12-5 ”C++ 代码 中 数据 流 图 相关 类 的 UML 类 图 (只 列 出 关键 成 员 变量 与 方法 ) 


在 C++ 代码 中 ， 数 据 流 图 的 数据 结构 为 Graph 类 ， 图 上 的 节点 和 边 分 别 为 Node 类 和 Edge 
类 。Graph 类 的 关键 成 员 变 量 包括 节点 指针 向 量 nodes_、 边 指针 向 量 edges_、VersionDef 类 型 
的 数据 格式 版 本 字段 versions_ 等 ， 成 员 方法 主要 用 于 增加 、 删 除 及 查找 节点 和 边 。Node 类 的 
主要 成 员 变 量 包含 标识 符 id_、 类 型 枚 举 class_、 输 入 和 输出 边 集 in_edges_ 和 out_edges_ 等 ， 
并 通过 其 巾 套 的 Properties 类 封装 了 NodeDef 对 象 及 0pDef 指针 。Edge 类 的 主要 成 员 变量 
含 标 识 符 id_、 源 与 目标 节点 指针 src_ 和 dst_ 等 。 这 两 个 类 的 成 员 方法 大 多 用 于 访问 各 自 对 象 
的 成 员 变 量 。 Node 的 辅助 类 NodeBuilder 用 于 以 方法 链 ( method chaining ) 语 法 便捷 地 构造 Node 
对 象 。Edge 的 辅助 类 Edgeset 通过 内 置 数组 与 std: : set 对 象 结合 的 方式 高 效 存储 边 的 集合 。 
为 了 实现 数据 流 图 执行 的 时 序 控制 ，TensorFlow 引入 了 控制 流 的 概念 ， 使 用 controlFlowInfo 
结构 记录 控制 流 的 信息 。 

针对 数据 流 图 操作 的 高 效 管理 需求 , TensorFlow 提供 了 与 OpDef 相关 的 多 种 工具 类 。 接口 类 
OpRegistryInterface 及 其 实现 类 opRegistry 和 OpListopRegistry 用 于 注册 和 查找 OpDef 对 象 。 
其 中 ，OpRegistry 类 是 运行 时 库 全 局 的 、 单 例 (singleton ) 的 0pDef 管理 器 ， 它 的 Global 方法 
返回 其 唯一 实例 。opListopRegistry 类 则 是 一 种 基于 已 有 0pList 对 象 构造 的 OpDef 管理 器 。 
OpDefBuilder 类 用 于 以 方法 链 语法 构造 OpDef 对 象 。0pDefBuilder 的 包装 类 0pDefBuilderWrapper 
以 模板 特 化 方式 提供 选择 性 注册 opDef 对 象 的 功能 。 开 发 者 可 以 编写 ops_to_register.h 头 文件 ， 
通过 SHOULD_REGISTER_OP 宏 指定 某 个 操作 是 否 需 要 被 注册 , 以 便 减 小 TensorFlow 核心 的 二 进 制 


一 op_def :OpDef* 
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文件 体积 。 辅 助 结构 OpDefBuilderReceiver 用 于 将 REGISTER_OP 安 注 册 opDef 对 象 的 请 求 转 
发 给 0pRegistry 对 象 处 理 。 


OpKernel 类 是 操作 对 应 的 核 函 数 基 类 。 它 包含 用 于 记录 输入 、 输 出 边 数据 类 型 和 内 存 类 型 
的 向 量 成 员 。 其 关键 方法 是 用 于 同步 计算 的 Compute 虚 方法 。0pKernel 的 子 类 AsyncOpKernel 
是 异步 核 函数 的 基 类 ， 提 供用 于 异步 计算 的 computeAsync 虚 方 法 。 具 体 的 核 函 数 子 类 需要 实现 
Compute 或 ComputeAsync 方法 。 辅 助 类 0pKernelConstruction 作为 0pKernel 构造 函数 的 参 
数 , 用 于 保存 构造 opKernel 对 象 时 所 需 的 所 有 元 信息 。 工具 类 0pKernelRegistrar 类 用 于 在 系 
统 全 局 注册 核 函 数 对 象 , 注册 信息 以 单 例 的 KkernelRegistration 结构 映射 表 形式 保存 。 为 便于 
编写 注册 代码 ，KernelRegistration 类 及 REGISTER_KERNEL_BUILDER 宏 提供 了 一 套 基于 方法 
链 语 法 的 封装 。 另 有 辅助 类 opSegment ， 用 于 维护 一 个 会 话 中 注册 的 opKernel 对 象 集合 。 

OpKernelContext 类 用 于 记录 操作 核 函 数 对 象 的 上 下 文 。0pKernel、AsyncOpKernel 的 
Compute 、ComputeAsync 方法 均 具有 上 下 文 指 针 参 数 ， 用 来 将 核 函 数 对 象 与 一 幅 数 据 流 图 上 的 
某 个 具体 操作 节点 关联 起 来 , 进而 能 够 对 节点 实例 执行 计算 或 通信 操作 。0pKernelContext 类 的 
成 员 众多 ， 其 中 作为 构造 函数 参数 使 用 的 成 员 变 量 封装 在 名 为 Params 的 内 舱 结 构 中 。 这 些 成 员 
变量 包括 输入 /输出 TensorValue 向 量 、 执 行 步 ID 、0pKernel 和 DeviceBase 指针 等 。 
OpKernelContext 类 的 成 员 方 法 提供 多 种 适用 于 不 同 场景 的 成 员 变 量 访问 接口 ,包括 只 读 访问 与 
可 写 访 问 接口 等 ， 旨 在 实现 内 存 复 用 。 

Protocol Buffers 数据 流 图 可 通过 GraphConstructor 类 生成 对 应 的 C++ 数据 结构 。GraphConstructor 
类 的 核心 方法 是 Construct， 它 使 用 GraphDef 对 象 存储 的 信息 构造 Graph 对 象 。 辅 助 数据 结构 
NodeInfo 和 EdgeInfo 等 用 于 在 这 一 过 程 中 实现 信息 映射 。 全 局 函数 ConvertGraphDefToGraph 
是 上 层 代码 访问 数据 结构 转换 逻辑 的 主要 接口 。 


12.3 ”公共 基础 机 制 | 


TensorFlow 提供 一 系列 公共 基础 机 制 , 它们 服务 于 多 种 不 同 的 功能 模块 。 理 解 这 些 机 制 的 原 
理 与 设计 , 有 助 于 进一步 理解 各 个 功能 模块 。 本 节选 取 并 介绍 内 存 分 配 、 线 程 管 理 、 多 语言 接口 、 
XLA 编译 技术 和 单元 测试 框架 等 具有 代表 性 的 公共 基础 机 制 。 


12.3.1 内 存 分 配 


对 于 机 器 学 习 、 深 度 学 习 算 法 执行 而 言 ,内存 的 容量 及 访问 速率 是 影响 计算 性 能 的 重要 因素 。 
平台 层 软 件 能 否 有 效 地 使 用 内 存 资源 , 将 其 高 效 地 分 配给 计算 任务 , 很 大 程度 上 决定 了 软件 的 整 
体 性 能 。TensorFlow 并 没有 简单 地 利用 标准 库 的 动态 内 存 分 配 机 制 , 而 是 设计 了 一 组 内 存 分 配 右 
组 件 。 这 些 内 存 分 配器 一 方面 针对 不 同 设备 和 工作 场景 , 实现 了 相对 高 效 的 内 存 分 配方 法 ; 另 一 
方面 屏蔽 了 异 构 设备 内 存 分配 接 口 的 差异 , 提升 了 核心 组 件 的 易 用 性 。 图 12-6 给 出 了 TensorFlow 
提供 的 主要 内 存 分 配器 类 型 及 其 继承 关系 。 


12.3 公共 基础 机 制 267 


人 


CPUAllocator SYCLAllocator 


TrackingAllocator VisitableAllocator 
八 八 八 


BFCAllocator 
八 


GPUBFCAllocator 
BasicCPUAllocator | CUDAHostAllocator 


图 12-6 主要 内 存 分 配 融 类 型 及 其 继承 关系 


Allocator 类 是 内 存 分 配器 的 基 类 ,用 于 以 一 致 的 接口 分 配 或 回收 不 同 设备 的 内 存 空间 。 它 
提供 一 组 虚 方 法 ， 包 括 用 于 分 配 内 存 的 AllocateRaw 和 回收 内 存 的 DeallocateRaw 等 ， 并 出 于 
易 用 性 的 目的 , 封装 了 多 种 重 载 版 本 的 Allocate、Deallocate 方法 及 其 他 辅助 方法 ,Allocator 
类 具有 以 下 两 种 属性 抽象 。 

口 AllocationAttributes 结构 : 用 于 描述 单 次 内 存 分 配 的 属性 ， 目 前 提供 的 字段 包括 支 

持 失 败 重 试 和 分 配 行为 记录 的 开关 变量 ， 它 主要 作为 内 存 分 配方 法 的 参数 使 用 。 

口 AllocatorAttributes 结构 : 用 于 描述 一 种 内 存 分 配器 固有 的 属性 ， 它 以 位 元 组 方式 标 
识 了 某 种 分 配器 管理 的 内 存 是 否 位 于 主 存 、 是 否 具 有 GPU 兼容 性 、 是 否 能 够 跟踪 分 配 大 
小 等 特性 。 该 结构 主要 作为 分 配 需 子 类 的 工 三 方法 参数 ， 或 其 他 组 件 记录 自身 管理 内 存 

属性 的 字段 。 

Allocator 类 还 具有 两 种 包装 器 子 类 : TrackingAllocator 子 类 为 内 存 分 配器 提供 已 分 配 空 
间 大 小 的 记录 功能 ，VisitableAllocator 子 类 为 内 存 分 配器 提供 针对 特定 访问 者 的 区 块 注册 功 
能 。 另 有 TrackingvisitableAllocator 类 ， 它 继承 了 这 两 种 包装 需 的 能 力 。 


为 了 便于 组 合 不 同 内 存 分 配器 的 功能 ,同时 避免 多 重 继承 的 开销 ,TensorFlow 设 计 了 subAllocator 
类 型 。 该 类 仅 提 供 最 基本 的 Alloc 和 Free 虚 方 法 。 其 子 类 实现 这 些 方法 之 后 ， 可 以 被 其 他 复杂 
的 Allocator 子 类 作为 成 员 对 象 集成 .subAllocator 类 现 有 的 主要 子 类 包括 用 于 分 配 CPU 内 存 
的 BasicCPUAllocator 类 、 用 于 分 配 CUDA GPU 内 存 的 GPUMemAllocator 类 ， 以 及 用 于 在 主 
存 上 分 配 锁 页 (pinned ) 内 存 的 CUDAHostAllocator 类 。 


针对 具体 的 计算 设备 ，TensorFlow 提供 了 不 同 的 Allocator 子 类 。CPUAllocator 类 实现 了 
面向 主机 ( 即 CPU 计算 设备 ) 的 内 存 分 配器 , 它 的 内 存 分 配 与 回收 方法 在 内 部 调用 tensorflow: :port 
命名 空间 下 的 AlignedMalloc 和 AlignedFree 方法 。tensorflow: :port 命名 空间 针对 不 同 操 
作 系 统 具 有 不 同 的 实现 代码 。 以 Linux 系统 为 例 , 内 存 分 配器 的 具体 实现 允许 在 TensorFlow 源 代 
人 码 编译 时 加 以 选择 可 以 选择 来 源 于 FreeBSD 社区 、 被 多 种 网 络 服务 软件 使 用 的 jemalloc ( 详 
见 http:Wjemallocnet )， 也 可 以 选择 操作 系统 C/C++ 标准 库 提供 的 默认 内 存 分 配器 (一般 为 


TrackingVisitableAllocator 了 PoolAllocator 


GPUMemAllocator 
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ptmalloc , 详 见 http://malloc.de/en )。 全 局 函数 cpu_allocator 用 于 返回 经 过 TrackingAllocator 
包装 的 单 例 CPUAllocator 对 象 。 


GPUBFCAllocator 类 实现 了 面向 CUDA GPU 的 内 存 分 配器 ， 该 分 配器 依次 继承 了 BFCAllocator 
和 VisitableAllocator 父 类 。BFCAllocator 类 实现 了 BFC ( best-fit with coalescing ) 算法 ( 详 
见 http://g.oswego.edu/d/html/malloc.html ) 一 一 这 是 一 种 经 典 的 内 存 分 配 算法 ， 能 够 通过 内 存 的 
分 块 与 合并 实现 高 效 的 空间 分 配 和 碎片 回收 。GPUBFCAllocator 类 在 继承 父 类 算法 的 同时 , 将 内 
存 分 配 的 具体 实现 绑 定 到 GPUMemAllocator 对 象 。 后 者 通过 访问 StreamExecutor 库 的 相关 接口 
实现 GPU 内 存 分 配 与 回收 。sYCLAllocator 类 实现 了 面向 OpenCL GPU 的 内 存 分 配器 。 它 的 逻 
辑 比较 简单 ， 直 接 调 用 了 Eigen 库 的 对 应 方法 。TensorFlow 还 提供 面向 CPU 一 一 GPU 内 存 DMA 
通信 场景 .针对 CPU 内 存 分 配 优 化 的 PoolAllocator 类 ,该 类 的 实现 借助 了 BasiccPUAllocator 
和 CUDAHostAllocator 对 象 。 


12.3.2 ”线程 管理 


TensorFlow 运行 时 核心 引入 了 多 线程 设计 ， 充 分 发 挥 多 核 CPU 的 计算 潜力 ， 利 用 系统 的 并 
行 处 理 能 力 提升 软件 性 能 。TensorFlow 的 线程 管理 机 制 与 很 多 数据 计算 平台 类 似 , 以 动态 、 异步 、 
和 件 驱 动 的 任务 并 行为 主要 特征 ， 具 有 高 度 的 灵活 性 。 

为 了 简化 多 线程 程序 开发 ， 同 时 节省 线程 创建 和 销毁 的 开销 ，TensorFlow 采用 经 典 的 线程 池 
模式 管理 多 线程 。 线 程 池 类 ThreadPool 定义 于 tensorflow/core/lib/core/threadpool.h 文件 。 该 类 最 
基本 的 构造 函数 签名 为 ThreadPool(Env* env，const string& name，int num_threads)， 其 
中 name 和 num_threads 参数 指定 线程 池 的 名 称 与 大 小 。Env 类 包含 与 特定 操作 系统 相关 的 系统 
调用 封装 。 将 env 指针 传人 ThreadPool 对 象 的 目的 是 获取 当前 操作 系统 的 线程 创建 方法 (封装 
于 Env::StartThread )。Schedule 方法 用 于 将 函数 对 象 提交 到 线程 池 以 待 调度 执行 ， 其 签名 为 
Schedule(std: :function<cvoid()> fn)。 该 方法 是 非 阻塞 的 ， 函 数 对 象 的 执行 时 机 由 线程 池 的 
内 部 实现 决定 。ThreadPool 类 还 提供 并 行 执行 一 组 相同 函数 的 ParallelFor 方法 ， 其 语义 类 似 
于 OpenMP 的 parallel for 操作 ,一 般 用 于 数据 并 行 的 计算 模式 。 

ThreadPool 类 通过 内 骸 的 Impl 结构 封装 了 Eigen 库 的 线程 池 实 现 。Impl 结构 继承 自 Eigen 
库 的 ThreadPoolTempl 类 模板 ， 并 通过 EigenEnvironment 结构 对 模板 进行 特 化 。Eigen 库 的 
ThreadPoolTempl 类 模板 提供 先入 先 出 (simpleThreadPoolTempl ) 和 非 阻 塞 队列 ( NonBlocking- 
ThreadPoolTempl ) 两 种 实现 。 池 内 有 线程 空闲 时 ， 空 闲 线程 将 从 提交 队列 中 加 载 一 个 函数 对 象 
执行 。EigenEnvironment 结构 的 作用 是 将 TensorFlow 定义 的 线程 抽象 及 操作 按照 Eigen 库 要 求 
的 接口 进行 封装 ， 以 便 ThreadPoolTemp1l 类 模板 调用 。 在 针对 类 Unix 和 Windows 操作 系统 的 
Env 子 类 中 ， 内 部 封装 的 线程 实现 均 是 C++ 的 std: :thread。 

在 TensorFlow 应 用 实例 运行 时 ， 每 个 进程 具有 一 个 名 为 Compute 的 全 局 线程 池 对 象 ， 该 对 
象 可 通过 定义 于 tensorflow/core/common runtime/process_util.h 文件 的 全 局 函数 ComputepPool 访 


一 


hl 
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问 。compute 线程 池 的 初始 化 是 在 首次 访问 时 由 全 局 函数 InitcomputePool 执行 的 ， 线 程 池 的 
大 小 为 进程 可 调度 的 CPU 总 核 数 。 进 程 内 的 worker 服务 对 应 的 WorkerEnv 对 象 持 有 Compute 线 
程 池 的 指针 。worker 服务 收 到 RPC 请 求 时 ， 将 相应 的 方法 实现 函数 调度 到 compute 线程 池内 执 
行 。 此 外 ，DirectSession 类 中 包含 一 个 线程 池 向 量 ， 这 些 线程 池 用 于 执行 数据 流 图 上 的 操作 。 

除了 支持 线程 池 调 度 模 式 外 , TensorFlow 运行 时 核心 也 允许 通过 直接 新 建 线程 的 方式 执行 也 
数 对 象 ( 闭 包 )。 这 种 方式 的 接口 是 tensorflow/core/common runtime/process_util.h 文件 中 定义 的 
SchedClosure 全 局 函数 。 该 函数 内 部 调用 当前 操作 系统 Env 子 类 的 schedClosure 方法 。 在 
TensorFlow 当前 的 实现 中 ，Env 子 类 的 schedClosure 方法 新 建 std: :thread 对 象 执行 函数 ， 随 
后 将 新 线程 与 主线 程 分 离 ( detach )。 这 种 设计 虽然 有 一 定性 能 和 内 存 开销 , 但 可 以 避免 大 量 函 数 
对 象 在 线程 池 中 阻塞 等 待 。 这 种 方式 的 典型 用 例 是 Master 类 的 一 些 成 员 方法 : 这 些 方法 将 会 话 
相关 操作 的 收尾 工作 封装 到 匿名 函数 中 ,以 新 建 线程 方式 执行 ,这 样 能 够 加 速 主线 程 中 方法 的 返回 。 


12.3.3 ”多 语言 接口 


考虑 到 系统 运行 时 的 高 效 性 ，TensorFlow 以 C++ 作为 核心 实现 语言 。 为 了 兼顾 开发 效率 并 
降低 学 习 成 本 ，TensorFlow 在 核心 库 之 上 为 应 用 开发 者 提供 C++、Python 、Java、Go 等 多 种 语言 
的 API,， 社区 亦 提供 Haskell、Rust 等 其 他 语言 的 API。 为 了 简化 多 语言 API 的 实现 ，TensorFlow 
具有 一 套 以 C 语言 为 中 介 的 接口 机 制 。 在 tensorflow/c 目录 下 ，c_apih 和 c_api.cc 文 件 通过 一 组 
名 称 以 TF_ 开头 的 全 局 函数 封装 了 C++ 核心 的 主要 功能 ， 并 以 兼容 C 语言 的 命名 方式 将 函数 导 
出 (extern "C" )。Python、Java、Go 等 API 借助 这 一 接口 访问 C++ 核心 功能 。C++ API 则 直接 
封装 C++ 核心 库 的 抽象 与 方法 ， 无 须 经 由 C API 转发 。 


Python API 与 C 语言 接口 的 链接 通过 SWIG 工具 实现 。SWIG 工具 可 依据 扩展 名 为 .i 的 接口 
描述 文件 自动 生成 Python 访问 C 的 封装 层 代 码 。TensorFlow Python API 的 顶层 接口 描述 文件 是 
tensorflow/python/tensorflow.i， 它 引入 了 若干 子 模块 的 接口 描述 文件 。 这 些 接 口 描述 文件 或 是 直 
接 引 用 c_apih 及 其 他 核心 头 文件 导出 的 函数 ， 或 是 对 核心 功能 进行 进一步 封装 。 使 用 源 代码 构 
建 TensorFlow 时 ， 自 定义 的 Bazel 编译 规则 tf _py_ wrap_cc 调用 SWIG 工具 和 C++ 编译 咒 ， 
将 C++ 核心 代码 编译 到 名 为 pywrap_tensorflow_internal.so( 以 Linux 系统 为 例 ) 的 动态 链接 库 ， 
同时 生成 名 为 pywrap_tensorflow.py 和 pywrap_tensorflow internalpy 的 Python 接口 文件 ， 以 便 上 
层 Python API 调 用 。 


Java API 与 C 语言 接口 的 链接 通过 JNI (Java Native Interface，Java 本 地 接口 ) 机 制 实 现 。 
TensorFlow 源 代码 包 的 tensorflow/java/src/main/native 目录 包含 JNI 工 具 链 生成 的 头 文件 及 相应 的 
C++ 实现 文件 ， 这些 C++ 文件 中 的 函数 实现 封装 了 c_apih 提供 的 函数 。tensorflow/java/src/main/ 
java 目录 则 包含 TensorFlow 主要 抽象 的 Java 定义 及 其 与 native 实现 之 间 的 胶合 层 代 码 。 依 据 Bazel 
编译 规则 ，native 目录 中 的 代码 连同 必要 的 C++ 核心 代码 编译 生成 名 为 libtensorflow_jni.so ( 以 
Linux 系统 为 例 ) 的 动态 链接 库 ，java 目录 中 的 代码 编译 生成 名 为 libtensorflow.jar 的 归档 文件 。 在 
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Java API 代码 中 ,声明 为 native 的 函数 直接 使 用 动态 链接 库 中 的 函数 实现 , 进而 访问 C++ 核心 功能 。 


Go API 与 C 语言 接口 的 链接 通过 cgo 机 制 实现 。 在 tensorflow/BUILD 文件 中 ，TensorFlow 
提供 将 CAPI 连同 C++ 核心 代码 编译 为 标准 动态 链接 库 的 能 力 。 以 Linux 系统 为 例 , 生成 的 库 文 
件 名 为 libtensorflow.so。Go API 代 码 中 通过 import "Cc" 方式 引入 C API 中 的 函数 定义 ， 并 在 应 


12.3.4 XLA 编 译 技术 


从 TensorFlow 1.0 版 本 开始 引入 的 XLA ( Accelerated Linear Algebra， 加 速 线 性 代数 ) 是 一 套 


用 程序 代码 编译 时 链接 到 上 述 动 态 链接 库 ， 实 现 Go 应 用 程序 对 TensorFlow 核心 的 访问 。 


通过 编译 技术 优化 机 器 学 习 平台 性 能 的 组 件 。 其 设计 目标 包括 : 加 速 数据 流 图 执行 ,提升 内 存 使 


模块 构成 。XLA 是 对 TensorFlow 原 有 核 函 数 及 运行 


用 效率 ， 降 低 自 定义 操作 依赖 ， 减 小 移动 应 用 内 存 占用 ， 以 及 增强 平台 可 移植 性 。XLA 主要 由 
数据 流 图 转换 器 、XLA 编译 器 、JIT (just-in-time ) 编译 机 制 、AOT ( ahead-of-time ) 编译 机 制 等 


12-7 给 出 了 XLA 的 主要 模块 在 数据 流 


图 


XLA 技术 的 核心 提 


XLA 
JIT 编 译 机制 上 ----- 


/ 


AOT 编 译 机 制 


Cr 文件 


组 件 的 增强 ， 用 户 可 以 选择 性 地 开启 。 


图 执行 流程 中 下 


x86 一 进 制 文件 


的 逻辑 位 置 。 


转换 器 
(tf2xla) 


ARMC 一 进 制 文件 制 文件 


12-7 XLA 的 主要 模块 在 数据 流 


图 执行 流程 中 的 逻辑 位 置 


和 和 象 是 HLO 〈 High Level Optimization ) 中 间 表 示 层 。HLO 是 一 种 面向 线性 代 


数 语义 的 编译 需 下 (Intermediate Representation ), 由 HLO 表达 的 语法 树 亦 称 为 XLA 图 。TensorFlow 


官网 或 源 代码 包 中 的 operation_semantics.md 文档 给 出 了 HLO 的 操作 语义 详细 说 明 。HLO 的 引入 
将 核 隐 数 开发 时 的 前 后 端 代码 解 厢 ， 有 助 于 增强 TensorFlow 的 可 移植 性 。XLA 技术 的 总 体 流 程 
是 将 TensorFlow 数据 流 图 转换 为 XLA 图 ,再 由 基于 LLVM 的 编译 胡 生 成 设备 特定 的 二 进 制 文件 。 


数据 流 图 转换 器 用 于 将 TensorFlow 数据 流 图 转换 为 XLA 图 ， 其 源 代码 位 于 tensorflow/ 


compiler/tf2xla 目录 。 该 模块 定义 了 名 为 XlaOpKernel 的 XLA 层 核 函 数 类 型 , 并 日 实现 了 一 系列 


线性 代数 相关 的 核 函 数 子 类 。 


在 数据 流 图 执行 前 ,转换 絮 基于 数据 流 图 的 结构 创建 XLA 图 ,将 


原 图 中 那些 可 通过 XLA 优化 的 操作 节点 替换 为 XLA 层 核 隐 数 。 由 于 数据 流 图 操作 同 HLO IR 存 
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在 语义 差异 ， 节 点 的 替换 可 能 是 一 对 一 的 ， 也 可 能 是 一 对 多 的 。 

XLA 编译 器 用 于 将 XLA 图 编译 为 二 进 制 文件 ， 其 源 代码 位 于 tensorflow/compiler/xla 目录 。 
该 模块 基于 LLVM 技术 实现 ,目前 支持 的 后 端 设备 包括 x86 CPU、ARM CPU 和 NVIDIA GPU。 
在 编译 器 中 ， 前 端 解 析 并 优化 XLA 图 ， 将 其 底层 化 (lower ) 为 LLVM IR， 后 端 将 LLVM IR 编 
译 为 设备 特定 的 二 进 制 文件 , 并 执行 二 进 制 代码 优化 。 XLA 编译 器 采用 客户 端 -服务 器 模式 设计 ， 
以 便 管 理 编译 过 程 的 生命 周期 。HLO 的 实现 亦 位 于 该 模块 。 

JIT 编译 机 制 用 于 在 TensorFlow 应 用 运行 时 创建 执行 数据 流 图 操作 的 二 进 制 代码 ， 它 是 一 套 
面向 异 构 设 备 的 通用 性 能 优化 机 制 。 该 模块 的 源 代 码 位 于 tensorflow/compiler/jit 目录 。 模 型 开发 
者 使 用 JIT 机 制 时 ， 需 要 在 代码 中 显 式 引 入 JIT API， 将 会 话 或 操作 配置 为 XLA 编译 模式 。JIT 
编译 机 制 会 对 数据 流 图 的 可 优化 部 分 实施 优化 ， 将 其 中 大 量 细 粒 度 的 操作 融合 (fuse ) 为 少量 粗 
粒度 的 专用 核 函 数 。 这 些 核 函 数 经 由 XLA 编译 器 生成 高 效 的 二 进 制 代码 ， 能 够 减少 图 执行 过 程 
中 内 存 分 配 和 上 下 文 切换 开销 。 

AOT 编译 机 制 用 于 在 TensorFlow 应 用 运行 前 创建 集成 了 模型 和 运行 时 的 二 进 制 代 码 ， 主 要 
适用 于 手机 等 移动 端的 推理 态 ( inference ) 性 能 优化 。 该 模块 源 代码 位 于 tensorflow/compiler/aot 
目录 。 模 型 开发 者 使 用 AOT 机 制 时 ， 需 要 提供 Protocol Buffers 格式 编写 的 数据 流 图 定义 文件 及 
编译 配置 文件 。 然 后 使 用 Bazel 构建 工具 , 调用 AOT 封装 工具 一 一 tfcompile 编译 数据 流 图 。AOT 
编译 机 制 生成 的 二 进 制 代码 包含 了 模型 和 必要 的 运行 时 逻辑 ， 不 再 需要 完整 的 TensorFlow 运行 时 
库 支 持 ， 因 此 能 够 减 小 可 执行 程序 的 体积 。 一 并 生成 的 C++ 头 文件 用 于 在 应 用 代码 中 访问 模型 。 


12.3.5 ”单元 测试 框架 


TensorFlow 作为 一 个 代码 量 达 数 十 万 行 的 项 目 , 在 软件 工程 管理 方面 较为 规范 和 严谨 。 单 元 
测试 作为 保证 软件 正确 性 的 重要 工具 ， 自 然 是 TensorFlow 源 代 码 包 不 可 或 缺 的 组 成 部 分 。 
TensorFlow 的 单元 测试 框架 使 用 了 Google 公司 开源 的 生态 系统 组 件 ， 包 括 用 于 测试 用 例 开发 的 
Google Test 工具 ， 以 及 用 于 测试 目标 构建 的 bazel test 命令 。 

TensorFlow 单元 测试 的 入 口 代码 位 于 tensorflow/core/platform/test_main.cc 文件 ， 相 关 辅 助 函 
数位 于 同一 目录 下 的 test.h 和 test.cc 文件 。 各 个 组 件 的 测试 用 例 代 码 一 般 位 于 组 件 本 身 所 在 的 目 
录 中 ,文件 名 为 “[ 组 件 名 ] testicc"。 在 这 些 文件 中 ,测试 用 例 类 通过 TEST 宏 定 义 , 测试 断言 语 
名 通过 ASSERT 或 EXPECT 系列 宏 封 装 。 开 发 者 运行 特定 测试 时 ， 只 需要 执行 bazel test [组 件 的 测 
试 目 标 名 ] 命令 ， 例 如 : bazel test //tensorflow/core:common_runtime direct_session test。 
如 果 和 希望 运行 TensorFlow 提供 的 所 有 单元 测试 ， 则 可 以 执行 bazel test //tensorflow/...。 


单元 测试 代码 有 助 于 读者 学 习 TensorFlow 的 编程 开发 方法 。 其 中 ，cc、python 等 应 用 层 API 
目录 下 的 测试 用 例 适用 于 算法 模型 和 应 用 程序 开发 者 学 习 上 层 抽象 与 接口 的 用 法 ， 而 core 目录 
下 的 测试 用 例 则 是 系统 平台 层 开源 贡献 者 或 二 次 开发 者 学 习 TensorFlow 核心 机 制 用 法 与 原理 的 
良好 教程 。 开 发 者 在 编写 新 组 件 时 , 亦 可 模仿 原 有 的 测试 用 例 编写 自己 的 测试 用 例 , 然后 运行 所 有 
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测试 用 例 ， 以 便 验 证 新 组 件 的 正确 性 及 其 对 原 有 组 件 的 影响 。 例 如 , 在 设计 一 种 新 的 内 存 分 配 算法 
时 ,开发 者 可 以 参考 allocator testcc 文件 ， 了解 内 存 分 配 需 类 需要 实现 的 最 小 方法 集合 ; 通过 将 原 
有 测试 用 例 中 的 CPUAllocator 对 象 替 换 为 新 的 内 存 分 配器 ,开发 者 可 以 快速 验证 新 算法 的 正确 性 。 


12.4 ”外 部 环境 接口 


TensorFlow 作为 一 套 以 性 能 为 重要 目标 、 面 向 实用 场景 的 深度 学 习 系统 ,充分 考虑 了 与 外 部 
软 硬 件 环境 的 对 接 。 一 方面 ，TensorFlow 需要 支持 以 GPU 为 代表 的 加 速 器 ， 以 便利 用 日 益 增 长 
的 硬件 能 力 , 实现 计算 高 效 性 ; 另 一 方面 , 它 需要 与 多 类 操作 系统 及 开源 生态 中 的 组 件 协同 工作 ， 
支持 云 计算 与 移动 终端 等 多 样 化 的 运行 时 环境 ， 实 现 平台 可 移植 性 。 

理解 TensorFlow 对 外 部 软 硬 件 组 件 的 支持 方式 ， 有 助 于 二 次 开发 者 及 系统 集成 开发 者 充分 
利用 TensorFlow 软件 架构 的 灵活 性 ， 拓 展 其 生态 系统 ， 使 之 在 更 为 广泛 的 场景 下 发 挥 效用 。 


12.4.1 加速 器 硬件 接口 


在 高 性 能 计算 与 大 数据 处 理 领域 ， GPU 是 应 用 最 为 广泛 的 计算 加 速 器 硬件 。GPU 针对 向 量 
和 和 矩阵 的 并 行 计算 能 力 恰恰 是 神经 网 络 等 算法 的 核心 需求 ， 因 此 GPU 成 为 包括 TensorFlow 在 内 
的 绝 大 多 数 机 器 学 习 、 深 度 学 习 系 统 的 首选 硬件 加 速 器 。TensorFlow 开源 版 本 最 初 支持 使 用 
CUDA 编程 模型 的 NVIDIAGPU , 自 0.12 版 开始 亦 实验 性 地 支持 使 用 OpenCL 编程 模型 的 其 他 GPU。 
除了 GPU ，Google 公司 内 部 也 开发 了 名 为 TPU (Tensor Processing Unit ) 的 定制 化 ASIC 设备 ， 作 
为 服务 器 端的 硬件 加 速 器 。 但 TPU 不 对 外 销售 ，TensorFlow 的 开源 版 本 也 未 提供 相应 开发 接口 。 


在 CUDA GPU 支持 方面 ，TensorFlow 并 未 使 用 常规 的 CUDA 运行 时 API 来 访问 GPU, 而 是 
使 用 StreamExecutor 库 实现 对 GPU 的 低层 次 、 细 粒度 控制 。StreamExecutor 是 Google 公司 开发 
的 一 套 异 构 并 行 计 算 库 ， 为 CUDA 和 OpenCL 编程 模型 的 GPU 提供 主机 端 开发 的 统一 接口 及 编 
译 时 和 运行 时 支持 。StreamExecutor 以 “ 流 ”( stream ) 为 基本 编程 抽象 ， 以 调度 核 函 数 (kernel ) 
在 流 上 的 执行 为 主要 工作 方式 ， 旨 在 提供 一 种 安全 、 高 效 、 易 用 的 GPU 并 行 编程 模式 。 

TensorFlow 开源 版 本 集成 的 StreamExecutor 模块 ( 位 于 tensorflow/stream executor 目录 ) 是 
StreamExecutor 项 目的 子 集 , 重点 支持 CUDAGPU。 图 12-8 给 出 了 该 版 本 StreamExecutor 的 主要 
组 件 逻 辑 结构 ， 以 及 它 与 上 下 层 组 件 的 关系 。StreamExecutor 底层 是 设备 适 配 层 ， 包 含 对 CUDA 
设备 和 主机 (CPU ) 设备 的 接 入 逻辑 。 它 将 CUDA 和 主机 原 有 的 编程 抽象 映射 到 流 抽 象 ， 并 实 
现 设备 特有 的 内 存 管理 函数 。CUDA 适 配 层 采用 动态 函数 加 载 方 式 ， 直 接 调用 CUDA 驱动 API 
访问 GPU。 由 于 CUDA 原生 提供 用 于 并 发 任务 调度 的 流 抽 象 , StreamExecutor 直接 对 其 进行 了 封 
装 。CUDA 适 配 层 还 接 入 了 cuBLAS、cuDNN 等 函数 库 , 以 利于 上 层 通 用 算 子 的 高 效 实现 。 主 机 
适 配 层 封装 了 本 地 操作 系统 的 内 存 分 配 等 系统 调用 ， 并 提供 HostStream 抽象 ， 用 于 主机 与 GPU 
协同 工作 时 安全 高 效 地 管理 主机 内 存 。 适 配 层 之 上 的 StreamExecutor 运行 时 引擎 主要 负责 在 流 上 
调度 执行 核子 数 ， 它 通过 适 配 层 封装 的 底层 机 制 保证 并 发 执行 的 安全 性 。StreamExecutor 对 上 层 
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开发 者 提供 的 API 主要 包含 在 stream、Kernel、Timer、Event 等 类 中 。 上 层 代码 由 此 可 以 绕 过 
CUDA 运行 时 API， 使 用 这 种 对 异步 、 并 发 、 多 设备 编程 更 加 友好 的 API 编写 GPU 程序 。 在 这 
些 接口 中 ，Sstream 类 是 上 层 代 码 访问 GPU 的 主要 入 口 ， 它 提供 一 系列 名 称 以 Then 开头 的 计算 
与 调度 函数 ， 用 于 异步 加 载 执 行 核 函 数 ， 并 实现 多 种 同步 等 待 语义 。 为 了 简化 数据 计算 系统 ， 特 
别 是 深度 学 习 系 统 的 开发 ，StreamExecutor 还 提供 了 一 组 通用 算 子 库 ， 包 括 用 于 基本 线性 代数 的 
BLAS、 用 于 深度 神经 网 络 的 DNN、 用 于 快速 全 里 叶 变 换 的 FFT， 以 及 用 于 随机 数 生 成 的 RNG 
等 。 这 些 通用 算 子 的 调用 接口 亦 被 集成 到 了 stream 类 中 。 
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图 12-8 ”StreamExecutor 的 主要 组 件 逻 辑 结 构 


TensorFlow 对 CUDA GPU 的 支持 主要 体现 在 运行 时 库 和 算法 核 限 数 这 两 方面 ,在 TensorFlow 
核心 的 通用 运行 时 库 中 ,与 CUDA GPU 相关 的 代码 位 于 tensorflow/core/common runtime/gpu 目 
录 。 运行 时 库 封装 了 StreamExecutor 的 接口 ,提供 了 一 组 与 TensorFlow 系统 层 语义 相关 联 的 数据 
结构 与 实用 工具 类 。 这 些 代码 主要 涉及 内 存 管理 、 设 备 管理 、 任 务 调度 和 跟踪 调试 等 。 内 存 分 配 
器 GPUBFCAllocator 、CUDAHostAllocator 等 已 在 12.3.1 节 中 介绍 过 ,为 了 实现 跨 设 备 的 内 存 复制 ， 
工具 类 GPUUtil 提供 了 一 组 用 于 Tensor 对 象 的 内 存 复制 方法 。 设 备 抽象 BaseGPUDevice .GPUDevice 
等 已 在 12.2.2 节 中 介绍 。 设 备 对 象 通过 streamGroup 结构 封装 的 流 指针 访问 SteamExecutor 的 接口 。 
对 于 任务 调度 ， 运 行 时 库 提供 了 EventMgr 类 ， 它 具有 在 流 上 调度 执行 异步 函数 的 ThenExecute 
方法 ， 主 要 用 于 在 Tensor 复制 逻辑 中 维护 对 象 的 生命 周期 。 对 于 跟踪 调试 ， 运 行 时 库 提 供 了 有 具 
有 调用 统计 和 计时 功能 的 GPUTracer 类 ， 以 及 用 于 内 存 分 配器 调试 的 GPUDebugAllocator 类 。 
在 TensorFlow 操作 对 应 的 核 也 数 实现 代码 中 ，0pKernelContext 对 象 的 DeviceContext 成 员 为 
核 函 数 提供 stream 方法 ， 用 于 访问 特定 操作 在 运行 时 绑 定 的 GPU 设备 对 应 的 Stream 对象 。 核 
函数 通过 调用 stream 对 象 提 供 的 计算 方法 ， 将 计算 任务 加 载 到 GPU 上 执行 。 

在 OpenCL GPU 文 持 方面 ，TensorFlow 主要 利用 SYCL 接口 〈 详 见 https://www.khronos.org/ 
sycl )， 而 非 以 传统 方式 编写 OpenCL 核 函 数 文件 。SYCL 是 一 套 基于 OpenCL 的 “ 单 源 ”( single- 
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source ) 异 构 编 程 机 制 ， 旨 在 提升 OpenCL 接口 易 用 性 和 应 用 开发 效率 。 所 谓 “ 单 源 ”， 是 指 主机 
和 设备 源 代码 处 于 同一 个 C++ 文件 中 ， 由 SYCL 专用 编译 右 人 和 借助 C++ 模板 函数 等 机 制 为 异 构 硬 
件 同时 生成 二 进 制 文件 。SYCL 在 继承 OpenCL 原 有 抽象 的 同时 ， 还 提供 一 系列 高 级 的 并 发 控制 
结构 ， 能 够 简化 异 构 并 行 应 用 的 开发 。 图 12-9 给 出 了 SYCL 单 源 开发 模式 与 OpenCL 传统 开发 
模式 的 对 比 ， 其 中 SPIR ( Standard Portable Intermediate Representation ) 是 OpenCL 的 一 种 中 间 表 


ey 
示 层 语言 。 


CPU ISA 
(内 嵌 SPIR) 


12-9 ”SYCL 单 源 开发 模式 与 OpenCL 传统 开发 模式 


TensorFlow 的 SYCL 支持 主要 由 SYCL 技术 的 维护 者 一 一 Codeplay 公司 贡献 。 与 集成 在 
TensorFlow 源 代码 包 中 的 StreamExecutor 模块 不 同 , SYCL 开发 包 是 一 个 外 部 依赖 项 。TensorFlow 
对 OpenCL GPU 的 支持 同样 体现 在 运行 时 库 和 算法 核 函数 两 方面 。 在 通用 的 运行 时 库 中 ， 与 
OpenCL GPU 相关 的 代码 位 于 tensorflow/core/common runtime/sycl 目录 。 这 里 定义 了 内 存 分 配器 
SYCLAllocator 、 设 备 抽象 SYCLDevice、 设 备 上 下 文 SYCLDeviceContext 等 类 型 ， 实 现 了 
TensorFlow 内 存 和 设备 管理 的 必要 接口 。 截 至 TensorFlow 1.2 版 本 ，SYCL 核 函 数 的 实现 尚 不 如 
CUDA 核 函 数 那 样 完善 ， 目 前 主要 提供 逐 系数 (coefficient-wise ) 操作 的 核 函 数 。 运 行 时 库 与 算 
法 核 函 数 的 内 部 实现 均 基 于 Eigen::SyclDevice 类 型 及 其 相关 的 计算 组 件 一 一 这 些 数 据 结 构 与 
算法 是 Eigen 库 集成 的 第 三 方 包 Tensor 的 一 部 分 ， 它 们 的 主要 贡献 者 亦 是 Codeplay 公司 。 

同一 种 数据 流 图 操作 之 所 以 能 够 在 不 同类 型 的 设备 上 执行 , 是 因为 其 核 函 数 针 对 不 同 设备 进 
行 了 实现 。 为 了 简化 异 构 设备 上 的 核 函 数 开 发 ，TensorFlow 在 操作 相关 的 代码 中 利用 了 C++ 模 
板 编 程 技巧 ， 并 且 部 分 地 借助 了 Eigen 库 既 有 的 异 构 设备 算法 实现 。 下 面 我 们 以 逐 系 数 操作 为 例 
来 说 明 。 之 所 以 选择 这 个 例子 , 是 因为 逐 系数 操作 在 不 同 设 备 上 的 实现 逻辑 相似 , 这样 便于 对 比 
分 析 。cwise_ops_common.h 文件 中 定义 的 类 模板 Binaryop 是 逐 系 数 运算 中 的 二 元 操作 符 抽 象 ， 
它 的 签名 为 template <typename Device, typename Functor> class BinaryOp : public 
BinaryOpShared， 其 中 Device、Functor 分 别 是 设备 和 操作 符 的 类 型 参数 。 在 Binaryop 类 的 
计算 方法 Compute 中 ，Device 参数 作为 函数 模板 0pKernelContext: :eigen_device 的 类 型 参 
数 传 人 。 在 op kernelcc 文件 中 , 该 函数 模板 针对 CPU、CUDA GPU 和 OpenCL GPU 设备 分 别 做 
了 特 化 实现 ,返回 Eigen 库 中 定义 的 不 同 设备 类 型 的 指针 。compute 方法 的 计算 过 程 实现 依赖 
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cwise_ops.h 文件 中 定义 的 结构 模板 BinaryFunctor。 该 结构 是 二 元 操作 符 的 执行 器 ， 签 名 为 
template “typename Device, typename Functor, int NDIMS, bool has errors = 
Functor: :has_errors> struct BinaryFunctor。BinaryFunctor 结构 针对 三 类 设备 分 别 做 了 
凯特 化 实现 , 以 设备 特有 的 方式 调用 Functor 参数 实例 化 之 后 对 应 的 二 元 操作 。 因 此 , 模型 参数 
完全 实例 化 之 后 的 BinaryoOp 对 象 可 以 在 其 compute 方法 中 访问 特定 类 型 的 设备 , 并 以 设备 特有 
的 方式 执行 计算 逻辑 。 对 于 已 在 cuBLAS、cuDNN 等 库 中 定义 过 的 算法 ,它们 对 应 的 操作 执行 器 
结构 的 CUDA GPU 偏 特 化 实现 直接 调用 这 些 库 中 定义 的 函数 ， 以 便 获 得 更 好 的 性 能 。 


12.4.2 ”系统 软件 接口 


TensorFlow 支持 对 接 的 系统 软件 包含 两 类 : 本 地 操作 系统 以 及 以 文件 系统 为 代表 的 第 三 方 平 
台 层 软件 或 服务 (PaaS )。 系统 软件 接口 相关 的 代码 位 于 源 代码 包 的 tensorflow/core/platform 目录 ， 
12-10 给 出 了 系统 软件 接口 相关 的 主要 数据 结构 及 其 继承 关系 。 


| rr] 


StdThread StdThread 
(POSIX) (Windows) 


WindowsEnvTime 


WindowsFileSystem 


HadoopFileSystem GcsFileSystem 


图 12-10 系统 软件 接口 相关 的 主要 数据 结构 及 其 继承 关系 
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在 本 地 操作 系统 方面 ,TensorFlow 支持 实现 了 POSIX 标准 的 类 Unix 系统 ( 包括 Linux .macOS 
等 ) 以 及 Windows 系统 。TensorFlow 提供 一 组 公共 接口 类 型 ， 作 为 访问 不 同 操作 系统 共性 能 
的 基 类 。 其 中 ，Env 类 以 统一 的 接口 集成 了 本 地 操作 系统 的 多 类 系统 调用 ， 涉 及 文件 系统 操作 、 
线程 管理 、 计 时 等 ， 它 是 TensorFlow 核心 访问 本 地 操作 系统 功能 的 主要 人 口 。Filesystem、 
Thread 、EnvTime 等 基 类 则 是 对 操作 系统 特定 组 件 的 抽象 , 便于 不 同 的 本 地 操作 系统 接口 子 类 模 
块 化 地 实现 相应 功能 。 面 向 类 Unix 系统 和 Windows 系统 的 接口 实现 子 类 分 别 位 于 posix 和 
windows 子 目录 ， 这 些 子 目录 下 另 提供 操作 系统 专 有 的 动态 链接 库 加 载 和 网 络 端口 检查 等 方法 。 

在 第 三 方 平台 层 软 件 或 服务 方面 , TensorFlow 以 编译 时 可 选 特性 方式 提供 对 HDFS 分 布 式 文 
件 系统 和 Google 云 服务 的 接 和 能力 。 对 于 HDFS 及 Google 云 服务 中 的 GCS ( Google Cloud Storage )， 
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接口 子 类 HadoopFilesystem 和 GcsFileSystem 继承 了 同 本 地 文件 系统 相同 的 FileSsystem 类 ， 
因此 TensorFlow 核心 能 够 以 一 致 的 接口 透明 地 访问 异 构 存 储 。 为 了 在 Google 公有 云 上 运行 
TensorFlow 实例 ， 云 服务 接口 模块 还 提供 了 用 户 认 证 、HTTP 请 求 管理 、 时 间 惟 解析 等 功能 。 


下 面 以 文件 系统 为 例 , 说 明 系 统 软件 接口 的 设计 与 实现 原理 。 文 件 系统 接口 基 类 Filesystem 
提供 创建 、 删 除 、 重 命名 文件 和 目录 的 虚 方法 。 辅 助 类 型 RandomAccessFile 和 WritableFile 
作为 随机 访问 文件 和 可 写 文件 的 抽象 基 类 ， 提 供 文件 读 、 写 、 追 加 、 同 步 等 虚 方 法 。 辅 助 类 型 
ReadonlyMemoryRegion 是 内 存 映射 文件 的 抽象 基 类 ， 提 供 访 问 内 存 数据 的 虚 方 法 。 每 种 本 地 或 
远程 文件 系统 的 接 入 代码 需要 继承 并 实现 这 些 抽象 类 型 。 例 如 ，HDFS 文件 系统 的 接 入 代码 通过 
封装 libhdfs 库 ， 将 基 类 方法 映射 到 HDFS 的 具体 实现 。 上 层 代 码 使 用 Env 或 其 他 基 类 的 方法 访 
问 文件 , 不 必 关 心 文件 操作 的 具体 实现 。TensorFlow 对 文件 系统 的 接 人 支持 涉及 编译 时 和 运行 时 
两 个 层面 。 编译 时 支持 体现 在 configure 选项 , 以 及 Bazel 构建 脚本 基于 操作 系统 类 型 的 选择 性 编 
译 。 运 行 时 支持 体现 在 基于 URL 前 组 的 文件 系统 自动 选择 机 制 。 

为 了 实现 异 构 文件 系统 的 统一 管理 及 自动 选择 机 制 ，TensorFlow 提供 文件 系统 注册 工具 类 
FileSystemRegistry 及 其 实现 类 FilesystemRegistryImpl。 FilesystemRegistry 类 的 Register 
方法 及 其 封装 宏 REGISTER_FILE_SYSTEM 用 于 将 一 种 文件 系统 接口 子 类 注册 到 TensorFlow 运行 
时 环境 ， 并 将 一 个 作为 URL 前 级 的 协议 名 字符 串 与 之 关联 ( 对 于 本 地 文件 系统 ， 协 议 名 可 以 是 
空 串 ), Lookup 方法 通过 协议 名 查找 并 返回 对 应 文件 系统 的 接口 子 类 对 象 。 GetRegisteredFile- 
Systemschemes 方法 用 于 列 出 所 有 已 注册 的 协议 名 。 因 此 ， 当 上 层 代码 访问 形 如 hdfs://localhost: 
8020/path/to/file 的 文件 名 时 ， 文 件 系 统 接口 能 够 自动 将 请 求 转 发 到 HDFS。 

此 外 ，TensorFlow 还 提供 文件 系统 搬 件 机 制 。 该 机 制 允许 在 不 重新 编译 TensorFlow 源 代 码 
的 前 提 下 ， 在 应 用 程序 运行 过 程 中 加 载 第 三 方 提供 的 动态 链接 库 ， 实 现 对 其 他 文件 系统 的 访问 。 
以 Python API 为 例 ， 文 件 系统 插件 加 载 函 数 为 tensorflow.1load_file_system_library。 由 此 
也 可 以 看 出 ，TensorFlow 的 系统 软件 接口 设计 较为 开放 ， 使 用 方式 非常 灵活 。 


12.5 小结 


TensorFlow 的 运行 时 核心 是 一 套 使 用 C++ 语言 开发 的 动态 链接 库 ， 实 现 了 平台 层 业 务 逻 辑 。 
运行 时 核心 能 够 接 入 多 种 异 构 计算 设备 , 并 为 应 用 模型 开发 者 提供 设备 无 关 的 多 语言 编程 抽象 和 
API。 运行 时 核心 的 各 个 模块 遵循 层次 化 设计 , 其 中 公共 运行 时 是 数据 流 图 执行 逻辑 的 核心 层次 ， 
分 布 式 运 行 时 是 实现 平台 可 伸缩 性 的 基础 。 运行 时 核心 包含 若干 关键 数据 结构 、 公 共 基 础 模块 和 
外 部 环境 接口 ， 它 们 属于 TensorFlow 的 全 局 共性 机 制 ， 为 各 个 功能 模块 所 共享 。XLA 编译 优化 
技术 的 引入 ， 使 得 TensorFlow 核心 代码 在 加 速 器 和 终端 硬件 上 具有 更 加 高 效 的 运行 时 形态 。 单 
元 测试 框架 的 引入 ， 为 平台 层 开发 者 学 习 TensorFlow 核心 机 制 的 使 用 提供 了 典型 的 样 例 代码 。 
理解 TensorFlow 运行 时 库 的 整体 框架 和 共性 机 制 ， 是 进一步 分 析 具 体 功 能 模块 设计 原理 的 基础 。 


通信 原理 与 实现 


TensorFlow 作为 以 数据 流 图 的 执行 为 主要 业务 逻辑 .支持 单机 跨 设 备 和 多 机 分 布 式 执行 的 计 
算 平 台 ， 需 要 使 用 通信 机 制 协助 数据 流 图 执行 过 程 的 运转 。 通 信 逻 辑 在 TensorFlow 系统 设计 中 
的 地 位 较为 关键 ， 它 既 作为 跨 设备 的 张 量 数据 传输 机 制 ， 又 成 为 调度 流程 的 重要 组 成 部 分 ,还 是 
分 布 式 运行 框架 得 以 实现 的 基础 技术 。 因 此 ， 我 们 有 必要 对 TensorFlow 的 通信 原理 与 实现 进行 
专门 的 分 析 。TensorFlow 单机 和 分 布 式 运行 模式 涉及 的 通信 技术 有 所 差异 。 本 章 依据 两 种 场景 对 
通信 需求 的 不 同 ， 将 通信 机 制 分 为 进程 内 通信 与 进程 间 通 信 两 部 分 加 以 解析 。 此 外 ，RDMA 作 
为 一 种 能 够 充分 利用 InfiniBand 等 高 性 能 网 络 带 宽 的 通信 协议 , 也 得 到 了 TensorFlow 的 支持 。 本 
章 亦 会 对 这 一 模块 进行 介绍 。 


13.1 概述 


TensorFlow 的 通信 机 制 主要 服务 于 运行 时 核心 组 件 间 的 数据 交换 和 流程 控制 。 在 数据 交换 方 
面 , 通信 的 内 容 主要 是 数据 流 图 上 节点 之 间 传 输 的 张 量 , 通信 的 源 和 目标 主体 一 般 是 本 地 进程 管 
理 的 不 同 设 备 , 或 是 参与 分 布 式 计算 的 不 同 进程 。 在 流程 控制 方面 , 通信 的 内 容 主 要 是 与 会 话 和 
数据 流 图 具体 执行 逻辑 相关 的 方法 参数 , 通信 的 源 和 目标 主体 一 般 是 进程 内 或 进程 间 负 责 不 同业 
务 逻 辑 的 对 象 。 进 程 内 通信 技术 主要 实现 内 存 数据 的 跨 设备 复制 , 进程 间 通 信 技 术 主 要 实现 数据 
流 和 控制 流 基于 网 络 协议 的 传输 。 
通信 机 制 是 TensorFlow 应 用 程序 实现 可 伸缩 性 ( scalability ) 的 基础 ， 它 使 得 同一 套 应 用 代 
码 可 以 通过 增加 计算 资源 的 方式 提高 计算 性 能 。 在 使 用 TensorFlow API 开发 应 用 的 过 程 中 , 通信 
接口 对 用 户 并 不 直接 可 见 ， 因 此 属于 一 类 “ 隐 式 ”操作 。TensorFlow 的 运行 时 框架 会 依据 应 用 代 
码 中 的 集群 与 设备 配置 , 在 数据 流 图 构建 时 自动 插入 通信 操作 , 并 在 数据 流 图 执行 过 程 中 动态 调 
度 执行 这 些 操作 。 为 了 直观 地 说 明 通 信和 机制 在 TensorFlow 中 的 使 用 场景 ， 13-1 给 出 了 基于 
PS-worker 模型 的 多 机 、 多 GPU 分 布 式 运行 模式 下 ，TensorFlow 所 涉及 的 进程 内 和 进程 间 通 信 关 
系 示 例 。 可 以 看 出 ， 进 程 内 通信 主要 用 于 本 地 CPU 与 GPU 内 存 之 间 ， 以 及 多 个 GPU 内 存 之 间 
的 内 存 复制 ; 进程 间 通 信 主 要 用 于 路 进程 的 数据 传输 ， 其 中 涉及 GPU 内 存 的 数据 传输 需要 经 过 
CPU 内 存 中 转 , 除非 使 用 支持 RDMA 协议 的 高 性 能 网 络 且 启用 了 第 三 方 贡献 的 GDR( GPUDirect 
RDMA ) 特性 。 
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< > 进程 内 通信 
一 一 进程 问 通信 


图 13-1 PS-worker 模型 涉及 的 通信 关系 示例 


TensorFlow 的 通信 机 制 设 计 遵 循 着 追求 高 效 的 思想 。 例 如 ， 对 于 逻辑 上 具有 数据 传输 语义 ， 
但 物理 上 通信 的 源 和 目标 位 于 同一 设备 、 同 一 地 址 空间 的 进程 内 通信 ， 只 传输 数据 指针 ， 不 传输 
数据 本 身 。 再 如 ， 对 于 CPU 和 GPU 内 存 之 间 的 通信 ， 尽 量 使 用 设备 底层 接口 实现 ， 而 不 使 用 面 
向 应 用 层 的 API。 为 了 尽 可 能 做 到 计算 与 通信 过 程 的 重 肆 ， 从 而 提升 平台 性 能 ，TensorFlow 的 很 
多 通信 函数 采用 异步 模式 及 多 线程 并 发 执行 。 异 步 通 信 的 结果 通知 机 制 回调 函数 也 是 同 
TensorFlow 调度 框架 总 体 设 计 相 一 致 的 机 制 , 它 使 得 通信 过 程 能 够 无 颖 融入 数据 流 图 的 整体 执行 
过 程 。 不 过 需要 注意 的 是 ， 对 于 同一 台 机 器 上 多 个 进程 之 间 的 通信 ,除了 操作 系统 内 核 回 有 的 优 
化 机 制 外 ，TensorFlow 开源 版 本 暂 未 提供 其 他 优化 机 制 。 这 意味 着 以 单机 多 进程 方式 使 用 
TensorFlow 时 ， 即 使 多 个 进程 使 用 了 同一 个 设备 ，TensorFlow 也 会 使 用 基于 网 络 传输 的 进程 间 通 
信 机 制 实现 内 存 复制 。 


13.2 ”进程 内 通信 


对 于 单机 运行 模式 以 及 分 布 式 运行 模式 中 每 个 进程 内 部 的 设备 间 数 据 交换 需求 ，TensorFlow 
提供 一 套 基于 会 合 点 ( rendezvous ) 的 进程 内 通信 机 制 。 这 套 机 制 实现 了 一 种 以 会 合 点 为 中 心 的 
生产 者 -消费 者 模型 ， 并 提供 直观 的 消息 传递 ( message passing ) 语义 接口 。 它 支持 发 送 与 接收 
操作 的 异步 调用 , 并 可 以 一 致 而 透明 地 访问 本 地 异 构 设 备 内 存 。 进 程 内 通信 组 件 也 是 设计 与 实现 
进程 间 通 信 组 件 的 基础 。 


13.2.1 通信 接口 


在 TensorFlow 中 ， 无 论 进程 内 通信 还 是 进程 间 通 信 ， 均 使 用 统一 的 消息 传递 模型 及 一 致 的 
编程 接口 。 在 这 种 通信 模型 中 ,， 待 传输 的 数据 封装 在 消息 抽象 中 , 一 次 消息 传递 过 程 需要 由 发 送 
者 和 接收 者 显 式 参与 。 对 于 最 简单 的 一 对 一 通信 场景 ， 每 个 发 送 操作 均 与 唯一 的 接收 操作 配对 。 
TensorFlow 的 消息 传递 接口 如 同 数据 计算 接口 一 样 , 被 定义 为 数据 流 图 上 的 操作 。 发 送 与 接收 的 
操作 类 分 别 是 定义 于 tensorflow/core/kernels/sendrecv_ops.h 文件 中 的 Sendop 与 Recvop 类 。 发 送 
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是 一 个 同步 操作 ， SendOp> 闫 继承 了 OpKernel 类 并 实现 了 Compute 方法 ; 接收 是 一 个 异步 操作 ， 
RecvOp 类 继承 了 AsyncOpKernel 类 并 实现 了 ComputeAsync 方法 。 传 人 Sendop: :Compute 和 
RecvOp: : ComputeAsync 方法 的 OpKernelContext 对 象 关 联 的 输入 或 输出 向 量 中 ， 只 有 向 量 下 
标 为 0 的 唯一 一 个 元 素 会 得 到 处 理 , 并 作为 发 送 的 源 或 接收 的 目标 。 通信 接口 之 所 以 能 够 以 统一 
的 入 口 方法 处 理 进程 内 通信 和 进程 间 通 信 ， 是 因为 其 方法 参数 传人 的 OopKernelcontext 对 象 内 
部 可 以 用 会 合 点 基 类 指针 指向 不 同类 型 的 会 合 点 子 类 对 象 , 从 而 以 多 态 方式 调用 不 同 场景 下 的 通 
言 实 现代 码 。 

不 同 于 显 式 定义 在 应 用 代码 中 的 操作 ， 发 送 与 接收 操作 一 般 是 由 TensorFlow 核心 隐 式 地 加 
入 到 数据 流 图 中 的 , 这 一 逻辑 是 在 图 的 提取 和 切 分 过 程 中 实现 的 。 在 数据 流 图 的 待 执行 子 图 提取 
时 ，TensorFlow 需要 为 子 图 设置 输入 数据 填充 ( feed ) 与 输出 数据 获取 (fetch ) 机 制 。 如 果 没 有 局 
用 基于 FunctionCallFrame 的 数据 传输 优化 路 径 ， 那 么 会 合 点 将 被 用 作 数 据 填充 与 获取 的 中 介 
在 这 种 情况 下 , tensorflow/core/graph/subgraph.cc 文件 中 定义 的 subgraph: :RewriteGraphForExecution 
函数 会 重 写 子 图 的 输入 和 输出 节点 ， 通 过 FeedInputs 和 Fetchoutputs 也 数 为 图 添加 Recvop 
和 sendop， 使 得 图 的 执行 器 能 够 通过 会 合 点 为 子 图 填充 输入 数据 ， 或 从 子 图 获得 输出 数据 。 图 
13-2 给 出 了 子 图 提取 过 程 中 添加 通信 操作 的 示例 。 


提取 前 提取 后 


Rendezvous:: 
eRe | - - -~ {sendop 


RecvOutputs 


SendInputs 


seod J -~ [neowor | 
图 13-2 数据 流 图 在 子 图 提取 过 程 中 添加 通信 操作 的 示例 


对 于 数据 流 图 被 切 分 到 不 同 设备 上 执行 的 情况 , TensorFlow 需要 确保 图 切 分 前 后 具有 相同 的 
人 逻辑 语义 。 数 据 流 图 上 , 一 对 数据 收发 操作 恰好 等 价 于 一 条 切 分 前 的 边 ， 因 此 可 以 通过 插入 通信 
操作 节点 来 解决 语义 等 价 性 问题 。tensorflow/core/graph/graph partition.cc 文件 中 定义 的 
Partition 函数 能 够 消除 跨 设备 的 边 ， 并 通过 Addsend 和 AddRecv 限 数 在 切 分 后 的 两 个 局 部 图 
上 插入 一 对 sendop 和 Recvop 操作 。Partition 函数 还 会 检查 同一 个 张 量 在 源 设 备 与 目标 设备 
间 具 有 多 条 传输 边 的 情况 ， 对 此 加 以 优化 ， 不 添加 重复 的 sendop 和 Recvop 操作 。 图 13-3 给 出 
了 图 切 分 过 程 中 添加 通信 操作 的 示例 。 
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切 分 前 切 分 后 
设备 1 
(b) (e) Q) 2 
[Recvonp [Eecvon 
， 设备 2 
(a) (a) Q) 
图 13-3 ”数据 流 图 在 按 设备 切 分 过 程 中 添加 通信 操作 的 示例 
13.2.2 会 合 点 机 制 


会 合 点 是 分 布 式 系统 和 消息 传递 模型 中 常 有 


日 的 一 种 机 


制 , 它 月 


日 于 协调 异步 执行 的 消息 发 送 与 


接收 操作 , 使 得 逻辑 上 关联 的 操作 得 以 配对 。 在 会 合 点 缓冲 区 等 机 制 的 配合 下 ,无 论 发 送 与 接收 
操作 调用 的 先后 顺序 如 何 、 是 否 与 其 他 同类 操作 穿 搬 , 均 能 够 保证 操作 的 正确 配对 和 通信 的 顺利 
执行 。TensorFlow 的 消息 传递 操作 也 不 例外 ,， 它 以 会 合 点 作为 发 送 与 接收 操作 的 中 间 协 调 者 ， 以 
封装 后 的 张 量 作为 待 传递 的 消息 。 发 送 操作 不 会 因为 接收 操作 尚未 调用 而 阻塞 ,接收 操作 也 不 会 


因为 发 送 操作 尚未 调 月 


有 而 出 错 。 接收 者 总 会 在 发 送 者 完成 张 量 传递 之 后 得 到 通知 ,从 而 进行 后 续 


计算 。 会 合 点 机 制 的 相关 数据 结构 定义 在 tensorflow/core/framework/rendezvous.h 和 tensorflow/ 


core/common runtime/rendezvous mgrh 等 文件 中 ， 图 13-4 给 出 了 相关 类 的 UML 类 


Rendezvous 


+Send 
+ RecvAsync 


人 7 


LocalRendezvousImpl 
—table : Table 
+Send 


+RecvAsync 
+ StartAbort 


图 13-4 ”进程 内 会 合 点 相关 类 的 UML 类 


类 是 会 合 


点 的 基 类 , 它 继承 了 


Rendezvous 


图 。 


一 local : Rendezvous* 

一 device mgr : DeviceMer* 
+Send 

十 RecvAsync 

+StartAbort 

一 SameWorkerRecvyDone 


+waiter : DoneCallback 

+value : Tensor 

+is_dead : bool 

十 has_been_recvd : bool 

十 Send_dev_context : DeviceContext* 
+recv_dev_context: DeviceContext* 
+send alloc attrs: AllocatorAttributes 
+recv_alloc attrs: AllocatorAttributes 


A 时 


图 (只 列 出 关键 成 员 变 量 与 方法 ) 
RefCounted 类 , 其 对 象 可 以 通过 引用 计数 管理 生 


命 周期 。Rendezvous 类 的 目的 在 于 为 不 同 通信 场景 下 使 用 的 会 合 点 子 类 提供 统一 的 接口 ， 这 些 


接口 包括 以 虚 方 法 声明 的 同步 发 送 方法 Send、 


异步 接收 方法 RecvAsync， 以 及 用 于 取消 操作 的 


StartAbort 方法 。 为 了 便于 在 某 些 场景 下 使 用 同步 接收 语义 ，Rendezvous 类 基于 RecvAsync 
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封装 了 同步 版 本 的 Recv 方法 。 为 了 标识 张 量 并 实现 发 送 与 接收 操作 的 正确 配对 ，TensorFlow 引 
人 了 键 (key ) 的 概念 。 键 是 一 个 字符 串 ， 它 的 格式 为 : 

[src_device];[src_incarnation];[dst_device];[tensor_name];[frame_id]:[iter_id] 
其 中 ，src_device 和 dst_device 分 别 是 源 设备 与 目标 设备 的 名 称 ; src_incarnation 是 源 设 
备 的 具象 化 标识 ， 用 于 识别 设备 是 否 被 重新 初始 化 过 ; tensor_name 是 张 量 的 名 称 ; frame_id 
和 iter_id 是 与 控制 流 管理 结构 FrameAndIter 相关 的 参数 .Rendezvous 类 提供 静态 的 CreateKey 
和 parseKkey 方法 , 用 来 创建 和 解析 键 ; 另 提 供 ParsedKkey 结构 , 用 于 将 键 中 的 字段 结构 化 保存 。 
Send、RecvAsync 与 Recv 方法 的 核心 参数 是 由 ParsedKey 和 Tensor 构成 的 键 值 对 。 ParsedkKey 
对 象 的 引用 用 于 标识 张 量 , Tensor 对 象 的 引用 或 指针 作为 指向 竺 发 送 或 待 接收 的 张 量 内 存 地 址 。 
RecvAsync 方法 还 需要 传人 一 个 回调 函数 对 象 , 它 将 在 接收 操作 完成 之 后 被 调用 。 回 调 函 数 参 数 
中 包含 接收 到 的 Tensor 对 象 的 引用 ， 以 便 接收 方 对 其 进行 访问 。 

LocalRendezvousImpl 类 是 Rendezvous 的 子 类 ， 实 现 了 同一 本 地 设备 上 的 会 合 点 。 该 类 内 
舰 名 为 Ttem 的 结构 ,用 于 封装 张 量 以 及 与 消息 传递 相关 的 属性 。 其 中 ,函数 对 象 类 型 的 waiter 
成 员 用 于 保存 RecvAsync 方法 传人 的 回调 函数 , 布尔 型 变量 has_been_recvd 用 于 标识 张 量 是 否 
已 经 被 接收 ,LocalRendezvousImpl 类 还 包含 一 个 Table( 本 质 为 std: :unordered map<uint64， 
Item*> ) 类 型 的 成 员 table_， 用 于 缓存 该 会 合 点 上 尚未 配对 的 发 送 或 接收 操作 。table_ 以 张 量 
收发 操作 键 的 64 位 散 列 值 作为 映射 表 项 的 键 ， 以 Item 对 象 指针 作为 映射 表 项 的 值 。send 方法 
调用 时 ， 首 先 在 table_ 中 查找 待 发 送 的 键 。 如 果 键 不 存在 ， 则 说 明 待 配 对 的 RecvAsync 方法 尚 
未 调用 。 此 时 创建 一 个 Item 对 象 ， 赋予 其 待 发 送 的 张 量 以 及 相关 属性 ， 并 将 其 插入 table_。 如 
果 键 存在 ， 则 说 明 RecvAsync 方法 已 先 于 Send 调用 。 此 时 将 相应 的 Item 对 象 标记 为 已 接收 ， 
然后 将 send 待 发 送 的 张 量 作为 参数 ， 调 用 RecvAsync 之 前 保存 在 Item 对 象 中 的 回调 函数 。 类 
似 地 ，RecvAsync 方法 调用 时 ， 也 要 在 table_ 中 查找 待 接收 的 键 。 如 果 键 不 存在 ， 则 说 明 待 配 
对 的 send 方法 尚未 调用 。 此 时 创建 一 个 Item 对 象 ， 赋 予 其 回调 函数 对 象 以 及 其 他 属性 ， 并 将 
其 插入 table_。 如 果 键 存在 ， 则 说 明 send 方法 已 先 于 RecvAsync 调用 。 此 时 将 相应 的 Item 对 
象 标记 为 已 接收 ， 然 后 将 send 之 前 保存 在 Item 对 象 中 的 张 量 作为 参数 ,调用 RecvAsync 方法 传 
入 的 回调 函数 。 由 此 ，LocalRendezvousImpl 实现 了 与 收发 操作 顺序 无 关 的 本 地 消息 传递 过 程 。 

IntraProcessRendezvous 类 是 Rendezvous 的 另 一 个 子 类 ， 提 供 同一 进程 内 跨 设 备 通信 的 
会 合 点 功能 。 该 会 合 点 是 Sendop 与 Recvop 操作 的 进程 内 通信 能 力 实 现 者 ， 它 约定 : 发 送 操作 
始终 访问 本 设备 内 存 ， 接 收 操作 可 以 访问 本 设备 或 其 他 设备 内 存 。IntraProcessRendezvous 对 
象 包含 一 个 私有 的 Rendezvous 指针 , 指向 与 之 绑 定 的 LocalRendezvousImpl 对 象 , 作为 张 量 在 同 
一 本 地 设备 内 传输 的 实际 执行 者 。 对 于 发 送 操作 ，send 方法 直接 调用 内 部 LocalRendezvousImpl 
对 象 的 Send 方法 ， 完 成 本 设备 内 存 上 的 张 量 发 送 。 对 于 接收 操作 ，RecvAsync 方法 首先 调用 内 
部 LocalRendezvousImpl 对 象 的 RecvAsync 方法 ， 完 成 同一 设备 内 存 上 的 张 量 接收 。 然 后 在 传 
入 RecvAsync 的 匿名 回调 函数 中 , 调用 私有 的 SameWorkerRecvDone 方法 。 该 方法 依据 张 量 最 终 
接收 设备 的 不 同 ， 选 择 在 同一 设备 内 存 上 复制 缓冲 区 指针 ,或 是 通过 DMA 机 制 实现 跨 设 备 的 内 
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存 复 制 。 上 层 调用 者 ( Recvop : :ComputeAsync ) 传人 RecvAsync 方法 的 回调 函数 对 象 被 逐 级 传 
入 sameWorkerRecvDone 或 其 内 部 的 CopyTensor: :ViaDMA 方法 , 继而 在 张 量 到 达 最 终 接收 设备 
之 后 得 以 调用 。 图 13-5 给 出 了 进程 内 收发 双方 借助 会 合 点 进行 通信 的 过 程 ， 图 13-6 进一步 展示 了 
张 量 传递 涉及 的 主要 函数 调用 流程 , 并 解释 了 其 中 以 lambda 表达 式 方式 定义 的 匿名 函数 对 象 的 位 置 
与 功能 。 


发 送 方 ' 接收 方 


' 
' 
IntraProcessRendezvous 
' 


图 13-5 ”进程 内 收发 双方 借助 会 合 点 进行 通信 的 过 程 


同步 发 送 踢 
1 调用 : 请 求 数据 


RecvOp::ComputeAsync 从 


SendOp::Compute 


mbda() 
肌 队 临时 对 象 


删除 履 


IntraProcessRendezvous::Send 


IntraProcessRendezvous:: 
SameWorkerRecvDone 


: 
一 一 函数 调用 关系 -- -> 匿名 函数 定义 
图 13-6 ”进程 内 会 合 点 实现 张 量 传 递 的 函数 调用 与 回调 流程 


13.2.3” 异 构 设 备 内 存 访问 


如 12.4.1 节 所 述 ，TensorFlow 目前 的 版 本 支持 CPU 设备， 以 及 CUDA 和 OpenCL (SYCL ) 
这 两 类 编程 模型 的 GPU 设备 。 进 程 内 异 构 设备 间 通 信 的 本 质 是 跨 设备 内 存 的 数据 复制 。 现 代 
GPU 设备 普遍 支持 直接 内 存 访问 ( Direct Memory Access，DMA ) 能 力 ， 使 得 跨 设 备 的 内 存 复制 
过 程 无 需 CPU 介入 。 然 而 ,不 同 GPU 编程 模型 的 内 存 访问 接口 有 所 差异 ， 获 得 通信 性 能 的 最 佳 
实践 也 各 有 不 同 。TensorFlow 对 异 构 设备 内 存 访问 的 方法 进行 了 封装 ， 为 会 合 点 等 上 层 调用 者 提 
供 一 致 而 高 效 的 访问 接口 。 对 于 跨 设备 内 存 间 的 张 量 复制 ,顶层 工具 类 是 定义 在 tensorflow/core/ 
common runtime/copy tensorh 文件 中 的 CopyTensor 类 ， 它 的 主要 接口 是 静态 的 ViaDMA 方法 。 该 
方法 以 张 量 名 称 、 源 和 目标 Tensor 对 象 指 针 、 双 方 所 属 设备 的 DeviceContext 和 Device 对 象 指 
针 ， 以 及 双方 内 存 分 配器 所 需 的 属性 对 象 ALlocatorAttributes 为 主要 参数 ， 并 接受 一 个 在 复制 
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完成 时 调用 的 回调 函数 对 象 。 该 方法 根据 源 设 备 和 目标 设备 的 类 型 , 选择 与 设备 匹配 的 内 存 复制 函 
数 执行 复制 操作 。 

在 TensorFlow 的 实现 中 ,Tensor 对 象 及 内 部 TensorBuffer 对 象 本 身 始 终 保存 在 主机 ( 即 CPU ) 
内 存 上 ，TensorBuffer 内 部 指针 指向 的 缓冲 区 有 可 能 位 于 CPU 或 GPU 内 存 。 张 量 的 跨 设备 复制 
主要 是 指 内 部 缓冲 区 的 复制 过 程 。CPU 内 存 之 间 的 数据 复制 无 须 使 用 特殊 的 函数 ,直接 调用 Tensor 
类 重 载 的 赋值 操作 符 即 可 。 该 赋值 操作 符 内 部 通过 Tensor: :CopyFromInternal 方法 复制 Tensor 
对 象 。 对 于 TensorBuffer 指向 的 缓冲 区 ,不 做 完整 复制 ， 只 需 复制 指针 并 增加 引用 计数 。CPU 与 
GPU 内 存 之 间 的 数据 复制 函数 是 定义 在 Devicecontext 类 中 的 copyCPUTensorToDevice 和 
CopyDeviceTensorToCPU 方法 。 不同 GPU 设备 的 DeviceContext 子 类 需要 重 写 这 两 个 方法 ， 以 实 
现 设备 特有 的 缓冲 区 复制 逻辑 。 同 类 或 异类 GPU 设备 内 存 之 间 的 数据 复制 函数 需要 通过 CopyTensor 
的 内 部 类 Registration 以 及 私有 方法 Register 注册 到 copyTensor 类 中 。 目前 ，TensorFlow 只 提 
供 了 CUDA GPU 之 间 的 内 存 复制 函数 ， 即 GPUUti1: :DeviceToDeviceCopy。 该 函数 实现 的 是 缓冲 
区 的 完整 复制 。TensorFlow 已 实现 的 异 构 设 备 间 内 存 复 制 函数 与 设备 的 对 应 关系 如 图 13-7 所 示 。 


GPUUtil::DeviceToDeviceCopy Tensor::operator= 


GPUDeviceContext:: . 
CopyCPUTensorToDevice 


SYCLDeviceContext:: 
CopyCPUTensorToDevice 


GPUDeviceContext:: SYCLDeviceContext:: 
CopyDeviceTensorToCPU CopyDeviceTensorToCPU 


图 13-7 TensorFlow 已 实现 的 异 构 设备 间 内 存 复制 函数 与 设备 的 对 应 关系 


对 于 CUDAGPU 设 备 , 包 括 内 存 复制 逻辑 在 内 的 主要 代码 位 于 tensorflow/core/common runtime/ 
gpu 目录 。GPUDeviceContext 类 重 写 的 CopyCPUTensorToDevice 和 CopyDeviceTensorToCPU 
方法 内 部 调用 GPUutil 类 的 CopyCPUTensorToGPU 和 CopyGPUTensorToCPU 方法 实现 内 存 复制 。 
这 些 方法 并 没有 简单 地 使 用 CUDA API ( 如 cudaMemcpy )， 而 是 调用 streamExecutor 提供 的 内 
存 复制 机 制 。streamExecutor 直接 基于 CUDA 驱动 层 接口 实现 , 并 提供 异步 复制 和 完成 回调 功 
能 ， 在 牺牲 了 一 定 易 用 性 的 前 提 下 获得 了 执行 性 能 方面 的 优势 。 

对 于 OpenCLGPU 设备, 包括 内 存 复制 逻辑 在 内 的 主要 代码 位 于 tensorflow/core/common runtimey/ 
sycl 目录 。SYCLDeviceContext 类 重 写 的 CopyCPUTensorToDevice 和 CopyDeviceTensorToCPU 
方法 并 没有 使 用 OpenCL API ( 如 clEnqueueCopyBuffer )， 而 是 调用 了 Eigen 项 目 封装 的 一 套 基 
于 SYCL 的 内 存 复制 方法 。SYCL 提供 的 “ 单 源 ”代码 编写 和 编译 模式 有 助 于 简化 软件 开发 和 构 
建 流 程 。 


13.3 ”进程 间 通 信 


进程 内 通信 只 满足 了 TensorFlow 单机 运行 模式 中 的 数据 交换 需求 。 对 于 分 布 式 运行 模式 ， 
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为 了 实现 不 同 进程 之 间 的 协同 工作 ， 还 需要 进程 间 通 信和 能 力 。TensorFlow 使 用 Google 公司 开源 
的 远程 过 程 调用 库 一 一 gRPC 实现 进程 间 通 信 。 通 过 进程 间 的 控制 交互 与 数据 交换 ， 会 话 和 数据 
流 图 上 的 操作 得 以 在 分 布 式 集群 上 的 多 个 进程 内 并 发 地 执行 。 理 解 进程 间 通 信 的 设计 与 实现 是 进 
一 步 理解 TensorFlow 分 布 式 计算 原理 的 基础 。 


13.3.1 gRPC 通 信 机 制 


我 们 已 在 2.2 节 中 提 到 过 ，gRPC 是 一 种 客户 端 - 服 务 器 模式 的 开发 库 ， 它 为 开发 者 提供 了 一 
种 接口 调用 方 与 接口 实现 方位 置 分 离 的 函数 调用 机 制 。 开 发 者 只 需 编写 扩展 名 为 .proto 的 接口 描 
述 文件 ，gRPC 编译 器 即 可 自动 创建 目标 语言 的 数据 结构 及 其 序列 化 方法 ， 以 及 用 于 客户 端 、 服 
务 器 端 通信 的 接口 代码 。gRPC 的 语义 模拟 了 本 地 函数 调用 ， 每 次 调用 ( call ) 均 由 配对 的 请 求 
( request ) 消息 与 响应 (response ) 消息 构成 。 客 户 端 与 服务 需 端 可 以 通过 有 状态 的 通道 (channel ) 
自由 连接 ， 请 求 与 响应 消息 的 数据 类 型 可 以 通过 数据 结构 自由 组 合 。 因 此 ，gRPC 通信 机 制 能 够 
为 分 布 式 应 用 开发 提供 较 高 的 灵活 性 。 

为 了 有 效 管理 gRPC 接口 层 的 逻辑 与 抽象 ， 同 时 易于 上 层 代 码 使 用 进程 间 通 信 机 制 ， 
TensorFlow 核心 对 gRPC 库 进行 了 封装 ， 相 关 代 码 位 于 tensorflow/core/distributed_runtime/rpc 目 
录 内 。 尽 管 该 目录 中 的 文件 名 多 以 “grpc_ ”开头 ， 然 而 它们 并 非 gRPC 库 本 身 的 代码 副本 ,而 是 
只 包含 TensorFlow 的 封装 层 代码 。 与 gRPC 通信 相关 的 主要 实体 如 图 13-8 所 示 。 作 为 主要 组 件 的 
gRPC 服务 器 ( server ) 被 抽象 为 GrpcSserver 类 , 它 提供 master 与 worker 两 个 服务 ( service )， 
二 者 的 接口 定义 于 tensorflow/core/protobuf 目录 下 的 .proto 文件 中 。 分 布 式 模式 中 的 每 个 进程 具 
有 一 个 GrpcServer 实例 ， 其 中 的 master 服务 主要 用 于 会 话 相 关 操 作 ，worker 服务 主要 用 于 数 
据 流 图 相关 操作 。 表 13-1 列 出 了 master 与 worker 服务 的 主要 接口 及 其 功能 说 明 。 这 些 接口 可 
分 为 控制 通信 接口 与 数据 通信 接口 两 类 : 大 多 数 接口 用 于 管理 TensorFlow 运行 过 程 中 会 话 和 图 
的 生命 周期 或 执行 逻辑 ， 属 于 控制 通信 接口 ;worker 服务 中 的 RecvTensor 接口 用 于 传输 张 量 ， 
属于 数据 通信 接口 。 


服务 器 端 。 客户 江 


GrpeServer GrpcSession 


GrpcRemoteMtaster | 


master_channel 


GrpcMasterService 


GrpcWorkerService 


GrpcWorkerCache 
GrpcRemoteWorker 


worker_channel 


RpcRemote 
Rendezvous 


- - | MasterSession 


* 一 一 远程 过 程 调用 <- --- 本 地 函数 调用 
图 13-8”gRPC 通信 相关 的 主要 实体 
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表 13-1 Grpcserver 的 主要 接口 功能 说 明 


master 服务 接口 功能 说 明 worker 服务 接口 功能 说 明 
CreateSession 创建 会 话 及 其 数据 流 图 GetStatus 获取 设备 状态 
ExtendSession 扩展 会 话 的 数据 流 图 CreateWorkerSession 创建 worker 会 话 对 象 
PartialRunSetup ”设置 运行 部 分 图 的 参数 。 ”RegisterGraph 注册 将 要 执行 的 数据 流民 
Runstep 驱动 数据 流 图 计算 DeregisterGraph 注销 不 再 使 用 的 数据 流民 
CloseSession 关闭 会 话 RunGraph 执行 已 注册 的 所 有 数据 流 图 
ListDevices 列 出 master 可 用 的 设备 。 “CleanupGraph 清理 特定 执行 步 的 存留 状态 
Reset 关闭 所 有 存在 的 会 话 CleanupAll 清理 所 有 存留 状态 
RecvTensor 接收 特定 执行 步 中 指定 键 所 对 应 的 张 量 
Logging 日 志 (开源 版 本 中 和 暂 未 实现 ) 
Tracing 调试 信息 ( 开源 版 本 中 和 暂 未 实现 ) 


master 与 Worker 服务 的 服务 器 端 与 客户 端 实现 分 别 定义 于 GrpcMasterService 一 GrpcRemote 
Master 和 GrpcWorkerService 一 GrpcRemoteWorker 两 组 类 中 。GrpcMasterService 与 
GrpcWorkerService 是 服务 器 端 接 口 的 实现 类 。 为 了 方便 gRPC 服务 同 TensorFlow 的 设备 管理 、 
线程 调度 等 机 制 交 互 ， 两 个 服务 分 别 包含 了 MasterEnv 与 WorkerEnv 结构 ， 其 中 封装 了 服务 用 
到 的 多 种 组 件 指针 。GrpcRemoteMaster 和 GrpcRemoteWorker 是 客户 端 “ 存 根 ”( stub ) 类 ， 是 
远程 服务 在 本 地 的 代理 ,提供 形 同 本 地 函数 调用 的 接口 ， 以 便 隐 藏 远程 调用 的 通信 逻辑 。 代 表 客 
户 端 与 服务 器 端 连接 关系 的 实体 是 通道 ( grpc: :Channel )，TensorFlow 提供 与 每 个 服务 独立 关联 
的 通道 指针 ( 类 型 定义 为 SharedGrpcChannelPtr ), 以 及 用 于 记录 通道 元 信息 的 GrpcChannelSpec 
类 。 客 户 端 存根 对 象 构造 时 ， 以 通道 指针 作为 连接 指定 服务 器 端的 参数 。master 服务 的 主要 调用 
者 是 Grpcsession 类 ，worker 服务 控制 通信 接口 的 主要 调用 者 是 MasterSession 类 ， 数 据 通信 
接口 的 主要 调用 者 是 RpcRemoteRendezvous 类 。 


进程 间 执 行 远程 过 程 调用 的 前 提 是 启动 gRPC 的 服务 器 端 与 客户 端 ,并 建立 两 者 之 间 的 连接 。 
对 于 分 布 式 运行 模式 ， 每 个 进程 同时 具备 gRPC 服务 器 端 与 客户 端 两 种 角色 。 应 用 启动 时 ， 每 个 
进程 均 对 应 一 个 “主机 名 :端口 ”参数 ， 该 参数 来 自 应 用 层 API 的 clusterspec 对 象 ， 保 存在 核 
心 层 的 GrpcChannelspec 对 象 中 。 这 个 参数 指定 当前 进程 的 Grpcserver 实例 作为 服务 器 端 所 开 
放 的 网 络 端口 ， 也 是 其 他 进程 作为 客户 端 连接 该 进程 gRPC 服务 的 依据 。 在 服务 器 端 方面 ， 
GrpcSserver 实例 初始 化 时 ,将 新 建 的 master 与 worker 服务 关联 到 该 端口 ， 并 启动 监听 。 两 个 服 
务 的 消息 处 理 循环 函数 (HandleRPCsLoop ) 在 各 自 独 立 的 线程 中 并 发 执行 ， 异 步 处 理 来 自 客户 
端的 请 求 。 在 客户 端 方面 , 针对 master 服务 , 指向 目标 会 话 所 在 进程 的 通道 及 GrpcRemoteMaster 
存根 对 象 在 本 地 的 Grpcsession 实例 创建 时 建立 。 针 对 worker 服务 ，TensorFlow 提供 一 套 通道 
缓存 机 制 , 该 机 制 实 现 于 GrpcWorkerCache 类 。 本 地 Grpcserver 实例 初始 化 时 ,向 缓存 中 添加 
GrpcChannelSpec 对 象 保存 的 所 有 进程 的 通道 。 当 任何 对 象 需要 调用 指定 进程 的 worker 服务 时 ， 
可 以 查找 缓存 的 通道 指针 ， 并 基于 它 创建 6rpcRemoteWorker 存根 对 象 。 
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gRPC 的 服务 器 端 与 客户 端 均 支持 同步 与 异步 两 种 实现 模式 。 同 步 模 式 的 客户 端 函 数 调 用 需 
要 阻塞 等 待 服务 器 端 执行 完毕 才能 返回 ; 同步 模式 的 服务 器 端 只 有 完成 一 个 调用 请 求 才 能 接受 下 
一 个 请 求 。 异 步 模式 的 客户 端 在 函数 调用 之 后 立即 返回 , 客户 端 随 后 可 以 通过 完成 队列 取 回 已 完 
成 调用 的 结果 ; 异步 模式 的 服务 器 端 能 够 并 发 接受 多 个 服务 调用 请 求 , 以 多 线程 方式 在 后 台 执 行 ， 
并 通过 完成 队列 获知 某 个 调用 已 经 处 理 完成 。 在 TensorFlow 的 两 个 gRPC 服务 中 , 为 提升 并 发 处 
理性 能 , 服务 器 端 均 以 异步 模式 实现 。 客户 端 则 依 接口 的 需求 不 同 , 有 同步 和 异步 两 种 实现 模式 。 
其 中 ，master 服务 的 客户 端 调用 多 为 同步 模式 ，worker 服务 的 客户 端 调用 多 为 异步 模式 。 

需要 注意 的 是 ，TensorFlow 的 通信 机 制 包含 若干 本 地 优化 路 径 的 设计 。 即 对 于 调用 同一 进程 
内 的 master 或 worker 服务 的 情况 ， 均 有 可 能 绕 过 gRPC 接口 ， 直 接 访 问 本 地 实现 对 象 。 特 别 对 
于 master 服务 ， 由 于 当前 TensorFlow 上 层 API 设 计 的 局 限 性 ,客户 端 或 选择 使 用 本 地 优化 路 径 ， 
或 将 通道 指向 本 地 gRPC 服务 ， 其 通信 往往 退化 为 进程 内 通信 。 但 由 于 master 和 worker 服务 本 
质 上 是 为 分 布 式 平台 服务 的 , 这 里 将 其 统一 作为 进程 间 通 信 机 制 讨论 。 事 实 上 ， 即 使 在 进程 内 通 
信 场 景 下 ， 这 些 gRPC 服务 依然 可 以 为 运行 时 库 提供 异步 调度 能 力 。TensorFlow 未 来 版 本 或 许 会 
提供 master 服务 器 与 客户 端 分 离 的 通信 模式 ,从 而 实现 应 用 代码 与 运行 时 代码 解 耦 的 分 布 式 框架 。 

在 研读 基于 gRPC 开发 的 通信 代码 时 ， 如 果 发 现 一 些 类 型 或 方法 明显 带 有 TensorFlow 语义 ， 
却 无 法 在 TensorFlow 源 代码 中 找到 ， 那 么 它们 对 应 的 源 文件 很 可 能 是 在 TensorFlow 构建 时 由 
Protocol Buffers 编译 髓 基于 .proto 文件 生成 的 。 专 注 于 TensorFlow 技术 的 读者 一 般 不 需要 深入 研 
究 Protocol Buffers 及 其 gRPC 插件 所 创建 的 星 涩 的 内 部 实现 代码 , 只 需要 了 解 这 些 自动 生成 的 类 
型 或 方法 的 惯用 命名 规则 和 接口 规范 即 可 。 例 如 ， 接 口 响应 消息 的 数据 类 型 是 “[RPC 函数 
名 ]+Response”， 数 据 结 构 内 部 成 员 的 赋值 方法 是 “set_[ 成 员 名 ] ”等 。 此 外 ， 由 于 TensorFlow 
和 gRPC 均 为 Google 公司 开发 , 出 于 执行 效率 考虑 ,TensorFlow 使 用 了 若干 gRPC 未 提供 文档 的 
内 部 函数 。 这 些 函 数 的 语义 可 根据 其 名 称 推测 ， 一 般 不 影响 TensorFlow 层面 的 代码 理解 。 


13.3.2 ”控制 通信 


master 与 worker 服务 提供 的 多 数 接口 用 于 控制 通信 。 下 面 分 析 控制 通信 服务 器 端 与 客户 端的 
工作 流程 与 原理 。 

1. 服务 器 端 逻 辑 

服务 器 端 方面 ， 要 理解 控制 通信 的 设计 ， 首 先 需 要 了 解 gRPC 的 基本 抽象 : 异步 服务 
( AsyncService )、 完 成 队列 ( CompletionQueue )、 标 记 (tag )，! 双 TensorFlow 对 于 gRPC 调 
用 在 服务 器 端的 生命 周期 管理 类 一 一 call。 

Protocol Buffers 编译 器 生成 服务 代码 时 ， 会 为 每 个 服务 的 异步 版 本 创建 名 为 grpc::[ 服 务 
名 ]: :AsyncService 的 类 ,启动 和 管理 服务 时 , 可 以 使 用 grpc: :ServerBuilder 类 ,ServerBuilder 
对 象 启动 异步 服务 的 一 般 步 又 是 顺序 执行 以 下 方法 : 新 增 监听 端口 (AddListeningPort )、 法 
服务 ( RegisterService )、 新 增 并 返回 完成 队列 ( AddCompletionQueue )、 构 建 并 启动 服务 
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(BuildAndstart )。x 寺 TensorFlow， 这 些 步 骤 均 在 GrpcServer: :Init 方法 或 其 级 联 调用 的 方 
法 中 完成 。 

gRPC 的 完成 队列 是 一 种 针对 异步 事件 的 管理 机 制 ， 其 功能 是 将 期 望 发 生 的 事件 加 入 队列 ， 
在 事件 发 生 之 后 由 队列 的 Next 方法 返回 一 个 标记 。 出 于 为 开发 者 提供 灵活 性 的 考虑 ，gRPC 将 
标记 定义 为 void 指针 。 开 发 者 可 以 通过 自 定义 类 型 扩展 标记 的 语义 ， 从 而 通过 标记 访问 发 生 事 
件 的 对 象 . 服 务 器 端的 完成 队列 类 型 为 grpc: :ServerCompletionQueue。 通 过 调用 Asyncservice 
类 中 自动 生成 的 名 为 Request+[RPC 函数 名 ] 的 方法 或 者 通用 的 RequestAsyncUnary 方法 ， 服 务 
器 端 可 以 将 期 望 处 理 的 远程 过 程 调用 加 入 到 完成 队列 中 。 完 成 队列 的 Next 方法 阻塞 地 等 竺 并 返 
回 队 列 中 与 已 加 入 调用 相关 的 事件 标记 ， 这 些 事件 可 能 包括 请 求 收 到 、 处 理 完 成 等 。 每 次 调用 
Request+[RPC 函数 名 ] 或 RequestAsyncUnary 方法 时 ， 只 代表 期 望 收 到 相应 RPC 函数 的 一 次 调 
用 请 求 。 当 该 请 求 被 处 理 完成 后 ， 服 务 器 端 不 再 处 理 同一 RPC 函数 的 后 续 调 用 ， 除 非 将 其 再 次 
加 入 队列 。 异 步 服务 的 后 台 人 处 理 是 并 发 的 ，Next 方法 返回 标记 的 顺序 由 事件 时 序 决定 ， 与 向 完成 
队列 加 入 调用 的 顺序 无 关 。 在 TensorFlow 中 , 异步 服务 类 grpc: :MasterService::Asyncservice 和 
grpc: :NorkerService: :AsyncService 的 对 象 及 其 对 应 的 完成 队列 分 别 封装 于 GrpcMasterService 
和 GrpcwWorkerSservice 类 中 。 两 个 服务 各 上 自 的 消息 处 理 循环 另 数 HandleRPCsLoop 轮 询 检测 完 
成 队列 Next 方法 返回 的 标记 , 以 便 处 理 相 关 事 件 。 HandleRPCsLoop 峭 数 在 GrpcServer: :Start 
方法 中 以 新 建 线程 的 方式 启动 。GrpcServer 的 Init 与 Start 方法 均 在 进程 启动 之 初 、GrpcServer 
对 象 创建 后 随即 执行 。 

TensorFlow 基于 gRPC 的 异步 事件 管理 机 制 提供 了 自己 的 调用 类 与 标记 类 , 并 实现 了 一 套 基 
于 状态 转移 与 回调 因数 的 服务 器 端 调用 处 理 流 程 。 相 关 数 据 结构 的 定义 位 于 grpc_call.h 文件 中 。 
13-9 给 出 了 服务 器 端 异步 状态 管理 相关 类 的 UML 类 图 。 其 中 , call 类 是 gRPC 调用 在 服务 器 
端的 抽象 。 它 继承 自 UntypedCall 类 ， 在 此 基础 上 使 用 C++ 模板 参数 化 方式 关联 到 特定 的 | 服 
务 ， 请 求 消息 类 型 ， 响 应 消息 类 型 | 元 组 ， 从 而 能 够 代表 特定 RPC 函数 的 调用 。call 类 还 包含 
指向 对 应 服务 接口 实现 函数 的 指针 .UntypedCcal1: :Tag 类 是 一 种 带 有 函数 回调 功能 的 标记 抽象， 
它 的 对 象 指 针 作为 加 入 完成 队列 的 标记 。 其 关键 方法 是 onCompleted, 该 方法 由 消息 处 理 循 环 函 
数 在 标记 从 完成 队列 返回 之 后 调用 。Tag 对 象 具 有 一 个 回调 函数 枚 举 参数 ( callback )， 用 来 指示 
调用 oncompleted 时 所 执行 的 操作 。 每 个 call 对 象 包含 3 个 Tag 对 象 : request_received_tag_、 
response_sent_tag_ 和 cancelled_ tag_， 它 们 分 别 关 联 到 请 求 收 到 、 响 应 发 出 和 请 求 取消 这 3 
种 事件 。 

服务 器 端 处 理 一 次 调用 的 主要 流程 如 下 。 

(1) 创建 call 对 象 ,将 枚 举 参数 为 “请 求 收 到 ”的 Tag 对 象 指针 加 入 到 服务 的 完成 队列 。 这 
一 过 程 实现 于 call 类 的 静态 方法 EnqueueRequestForMethod， 并 通过 ENQUEUE_REQUEST 宏 统 
一 封装 。 每 个 服务 接口 的 首次 ENQUEUE_REQUEST 操作 位 于 服务 的 HandleRPCsLoop 函数 起 始 ， 
其 中 对 于 那些 需要 频繁 并 发 调用 的 接口 ， 一 次 性 入 队 100~1000 个 对 象 指针 。 以 后 ， 在 每 个 调用 
人 处理 完成 时 ， 执 行 一 次 ENQUEUE_REQUEST， 使 得 同一 接口 的 下 一 次 调用 能 够 被 处 理 。 
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UntypedCall<Service> 


+ RequestReceived 
+ RequestCancelled 


Call<Service, GrpcService, Request Message, ResponseMessace> 
+request: RequestMessage 

+response: ResponseMessage 
—request_received tag : UntypedCalkService>::Tag 
—response_sent tag : UntypedCalkService>::Tag 

一 cancelled tag : UntypedCalkService>::Tag 
—cancel callback :std::function<void()> 

+ RequestReceived 

+ SendResponse 

+ RequestCancelled 

+ SetCancelCallback 

+ClearCancelCallback 

+EnqueueRequest 

+ EnqueueRequestForMethod 


图 13-9 ”服务 器 端 异步 状态 管理 相关 类 的 UML 类 图 ( 只 列 出 关键 成 员 变 量 与 方法 ) 


(2) 收 到 客户 端 发 来 的 调用 请 求 后 ，HandleRPCsLoop 函数 中 完成 队列 的 Next 方法 会 返回 一 
个 枚 举 参数 为 “请 求 收 到 ”的 Tag 对 象 ， 该 对 象 的 onCompleted 方法 调用 后 ,触发 call 对 象 的 
RequestReceived 方法 。 在 该 方法 中 ，GrpcMasterService 或 GrpcWorkerService 中 的 接口 实 
现 函 数 ( 名 为 [RPC 函数 名 ]+Handler ) 通过 预 设 的 指针 得 以 调用 。Ccall 对 象 的 指针 作为 参数 传 
递 给 接口 实现 函数 ， 以 便 后 者 取得 调用 对 应 的 请 求 消息 ， 并 为 之 生成 响应 消息 。 

(3) 接口 实现 函数 处 理 请 求 消息 的 计算 逻辑 、 生 成 响应 消息 之 后 , 调用 call 对 象 的 SendResponse 
方法 。 该 方法 通过 gRPC 内 部 的 grpc::ServerAsyncResponseWriter::Finish 国 数 将 啊 应 的 处 
理工 作 收尾 ， 留 待 gRPC 后 台 调 度 发 送 。Finish 函数 会 将 枚 举 参数 为 “响应 发 出 ”的 Tag 对 象 
加 入 到 完成 队列 。 

(4) 响应 消息 由 gRPC 后 台 发 送 给 客户 端 之 后 ，HandleRPCsLoop 函数 中 完成 队列 的 Next 方 
法 会 返回 一 个 枚 举 参 数 为 “响应 发 出 ”的 Tag 对 象 ， 该 对 象 的 oncompleted 方法 调用 后 ， 触 发 
Call 对 象 将 自身 删除 ， 从 而 完成 一 次 gRPC 响应 的 生命 周期 维护 。 

服务 器 端 gRPC 调用 管理 的 一 种 特殊 情况 是 请 求 因 某 些 异常 而 取消 。 对 于 支持 取消 的 RPC 
函数 ， 其 call 对 象 可 以 通过 SetCancelCallback 方法 设置 取消 之 后 执行 的 回调 函数 。call 类 内 
部 的 RegisterCancellationHandler 方法 使 用 gRPC 服务 器 上 下 文 管理 类 grpc: :ServerContext 
的 AsyncNotifyWhenDone 方法 , 将 Call 对 象 中 枚 举 参 数 为 “请 求 取消 ”的 Tag 对 象 指针 加 入 到 
服务 的 完成 队列 。 当 请 求 正常 结束 或 被 取消 时 , 完成 队列 的 Next 方法 都 会 返回 该 Tag 对 象 指针 。 
这 时 Tag 对 象 的 OonCompleted 方法 将 触发 call 对象 的 RequestCancelled 方法 。 该 方法 通过 检 
查 ServerContext 对 象 的 TsCancelled 返回 值 ， 判 断 此 事件 是 否 由 请 求 取 消 所 致 ， 若 是 则 调用 
事先 设置 的 回调 函数 ， 使 得 服务 可 以 清理 相关 资源 。 

图 13-10 展示 了 服务 器 端 异步 调用 的 生命 周期 管理 中 call 对 象 的 状态 转换 关系 。 


© 
一 call :UntypedCalkService>* 
一 callback : Callback 
+OnCompleted 
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RequestCancelled-> 
取消 回调 函数 


RRT: request received tag 
RST: response_ sent tag *#: 可 取消 的 调用 正常 完成 时 适用 
CT: cancelled tag_ #: 可 取消 的 调用 异常 取消 时 适用 


图 13-10 ”服务 器 端 call 对 象 状态 转换 图 


2. 客户 端 逻 辑 

在 客户 端 方面 ， 同 步 客户 端的 设计 实现 非常 简单 。 对 于 以 同步 调用 为 主 的 master 客户 端 , 存根 
类 GrpcRemoteMaster 提供 一 组 与 RPC 函数 同名 的 代理 方法 , 其 内 部 使 用 grpc: :BlockingUnaryCall 
函数 阻塞 调用 Protocol Buffers 编译 器 生成 的 底层 存根 对 象 上 的 方法 ， 实 现 远 程 过 程 调 用 。 

异步 客户 端的 设计 实现 与 异步 服务 器 端 有 相似 之 处 , 均 使 用 完成 队列 管理 异步 事件 。 客 户 端 
的 完成 队列 类 型 为 grpc: :CompletionQueue， 其 消息 处 理 循环 是 在 6rpcWorkerCache 对 象 构造 
时 ， 通 过 创建 在 新 线程 上 执行 的 匿名 函数 实现 的 。 该 匿名 函数 轮 询 检 测 完成 队列 Next 方法 返回 
的 标记 ,以便 处 理 相 关 事 件 。 对 于 以 异步 调用 为 主 的 worker 客户 端 ， 存根 类 GrpcRemoteWorker 
提供 一 组 名 为 [RPC 函数 名 ]+Async 的 代理 方法 ,这些 代理 方法 通过 IssueRequest 函数 启动 一 次 
异步 请 求 的 生命 周期 。 图 13-11 给 出 了 客户 端 异步 状态 管理 相关 类 的 UML 类 图 。 代 表 异 步 请 求 
生命 周期 的 数据 结构 是 GrpcRemoteWorker: :RPCState 类 ,该 类 使 用 C++ 模板 参数 化 方式 关联 
到 特定 的 请 求 和 响应 消息 类 型 。RPCSstate 类 继承 自 标 记 类 GrpcClientCQTag ， 因 此 自身 对 象 的 
指针 即 可 作为 完成 队列 中 的 标记 使 用 。 与 服务 器 端的 Tag 类 相似 ，RPCState 类 也 有 名 为 
OnCompleted 的 方法 ， 由 消息 处 理 循环 函数 在 标记 从 完成 队列 返回 之 后 调用 。RPCState 对 象 初 
始 化 时 需要 提供 一 个 回调 函数 对 象 ， 该 回调 函数 将 在 onCompleted 方法 调用 后 执行 。 


GrpcClientCQTag 
+ OnCompleted 
八 


GrpcRemoteWorker:: RPCState<RequestMessage , ResponseMessage> 
—done : StatusCallback 


十 StartRPC 
+ OnCompleted 


图 13-11 客户 端 异步 状态 管理 相关 类 的 UML 类 图 ( 只 列 出 关键 成 员 变 量 与 方法 ) 
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客户 端 发 起 一 次 异步 调用 请 求 并 取得 响应 的 主要 流程 如 下 。 

(1) 上 层 代 码 调 用 GrpcRemoteWorker 上 的 代理 方法 时 ， 传 人 请 求 消 息 指 针 、 待 填充 的 响应 
消息 指针 ,以 及 回调 函数 对 象 。 代理 方法 将 这 些 参 数 传递 给 IssueRequest 耳 数 。IssueRequest 
函数 生成 RPCState 对 象 ,调用 该 对 象 的 startRPC 方法 。StartRPC 方法 通过 gRPC 内 部 的 grpc:: 
ClientAsyncResponseReader: :Finish 函数 将 请 求 的 处 理工 作 收 尾 , 留待 gRPC 后 台 调 度 发 送 。 
Finish 函数 会 将 RPCState 对 象 自身 的 指针 作为 标记 加 入 到 完成 队列 。 

(2) 收 到 服务 器 端 发 来 的 响应 后 , 消息 处 理 循 环 函数 中 完成 队列 的 Next 方法 会 返回 请 求 的 标 
记 ， 即 RPCState 对 象 指 针 。 该 对 象 的 onCompleted 方法 调用 后 ,触发 之 前 代理 方法 传人 的 回调 
函数 ， 以 便 客户 端 得 知 调用 完成 ， 可 以 处 理 已 经 就 绪 的 响应 消息 。 随 后 ，onCompleted 方法 将 
RPCState 对 象 自 身 删除 ， 从 而 完成 一 次 gRPC 请 求 的 生命 周期 维护 。 

图 13-12 展示 了 客户 端 异步 调用 的 生命 周期 管理 中 RPCState 对 象 的 状态 转换 关系 。 


标记 入 队 


发 送 请 求 
等 待 响应 
标记 出 队 


图 13-12 客户 端 RPCState 对 象 状 态 转 换 图 


13.3.3 ”数据 通信 


TensorFlow 核心 的 数据 通信 接口 是 worker 服务 的 RecvTensor 接口 。 从 gRPC 实现 的 角度 而 
言 ， 数 据 通信 和 与 控制 通信 并 无 本 质 区 别 ， 其 差异 只 在 于 上 层 代码 提供 的 消息 数据 结构 、 接 口 实现 
函数 不 同 。 控 制 通信 的 服务 器 端 与 客户 端 异步 处 理 流 程 对 于 数据 通信 完全 适用 。 然 而 ， 
RecvTensor 接口 又 有 一 定 的 特殊 性 ， 主 要 体现 在 其 响应 消息 内 容 是 张 量 。 张 量 的 生命 周期 管理 
不 仅 与 通信 相关 ,还 与 计算 逻辑 相关 ; 张 量 的 大 小 依 应 用 不 同 有 较 大 的 浮动 范围 ,可 以 从 几 字 节 
到 数 百 兆 字 节 。 为 了 高 效 地 实现 数据 通信 ，TensorFlow 设计 了 一 些 服务 于 RecvTensor 接口 的 特 
殊 机 制 。 此 外 ,进程 间 的 张 量 传输 也 需要 使 用 会 合 点 机 制 实现 通信 双方 的 同步 ， 这 种 会 合 点 称 为 
远程 会 合 点 。 下 面 分 别 介绍 RecvTensor 接口 的 特殊 设计 以 及 远程 会 合 点 的 实现 原理 。 


RecvTensor 接口 的 第 一 个 特殊 机 制 是 自 定义 的 消息 传输 与 解析 方式 。 不 同 于 仅 返 回 简单 响 
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应 甚至 空 响应 的 控制 通信 接口 ，RecvTensor 返回 的 响应 消息 有 可 能 很 大 。 如 果 使 用 gRPC 自动 
生成 的 序列 化 机 制 处 理 响应 消息 , 将 会 产生 较 大 的 数据 编码 、 解 析 与 复制 开销 。 为 了 避免 这 一 开 
销 ，TensorFlow 使 用 字 节 缓冲 区 ( grpc: :ByteBuffer ) 及 自 定 义 的 序列 化 、 反 序列 化 方法 传输 
张 量 。 考 虑 到 接口 的 易 用 性 ，TensorFlow 并 没有 将 字 节 缓冲 区 暴露 在 RecvTensor 接口 ， 而 是 隐 
藏 在 其 gRPC 封装 层 代 码 内 部 ， 并 提供 中 间 类 型 TensorResponse 辅助 上 层 调用 。 


在 服务 器 端 ，RecvTensor 的 接口 实现 函数 GrpcNorkerSservice: :RecvTensorHandlerRaw 
对 应 的 call 类 (WorkerCall<RecvTensorRequest，grpc: :ByteBuffer> ) 通过 模板 参数 化 将 响 
应 类 型 定义 为 ByteBuffer。 在 计算 逻辑 完成 、 待 发 送 的 张 量 生 成 之 后 ， 接 口 实现 函数 内 部 定义 
的 完成 回调 函数 将 会 调用 定义 在 grpc_ tensor coding.cc 文件 中 的 EncodeTensorToByteBuffer 或 
EncodeRecvTensorResponseToByteBuffer 函数 ,将 有 可 能 保存 在 不 同 种 类 设备 内 存 上 的 张 量 数 
据 以 尽 可 能 减少 内 存 分 配 与 复制 次 数 的 方式 写 人 ByteBuffer 对 象 ， 供 gRPC 后 台 发 送 。 写 入 
ByteBuffer 对 象 的 字 节 流 格 式 与 gRPC 自动 生成 的 RecvTensorResponse 类 的 序列 化 格式 相同 。 

在 客户 端 ，RecvTensor 在 存根 类 的 代理 方法 GrpcRemoteWorker: :RecvTensorAsync 声明 
的 响应 类 型 为 TensorResponse。 它 之 所 以 能 够 将 服务 器 端 以 ByteBuffer 类 型 发 来 的 数据 正确 
解析 为 TensorResponse 类 型 ， 是 因为 TensorFlow 使 用 C++ 模板 特征 禁 取 (trait ) 方式 ， 对 
grpc: :SerializationTraits 类 在 TensorResponse 类 型 上 的 反 序 列 化 方法 Deserialize 进行 
了 特 化 实现 〈 定 义 于 grpc_worker _ service _implh 文件 )。 该 特 化 实现 调用 TensorResponse 对 象 
的 ParseFrom 方法 ， 以 尽 可 能 高 效 的 方式 为 本 对 象 关联 的 Tensor 对 象 填充 数据 。 不 同 于 仅 存 储 
张 量 及 相关 元 信息 的 RecvTensorResponse 类 ，TensorResponse 类 还 包含 与 设备 管理 、 内 存 分 
配 相 关 的 对 象 指针 字段 ， 既 能 够 将 张 量 一 次 性 反 序 列 化 到 指定 设备 的 内 存 ， 避 免 内 存 复 制 开 销 ， 
又 能 够 配合 封装 层 的 其 他 逻辑 实现 对 张 量 生命 周 期 的 管理 。 这 也 是 在 客户 端 使 用 TensorResponse 
类 取代 RecvTensorResponse 类 的 理由 之 一 。 


RecvTensor 接口 的 男 一 个 特殊 机 制 是 客户 端的 调用 生命 周期 管理 。 不 同 于 仪 在 代理 方法 内 
部 管理 异步 请 求生 命 周 期 的 控制 通信 接口 ，RecvTensor 另 有 一 个 封装 在 代理 方法 外 部 的 客户 端 
生命 周期 管理 类 RpcRecvTensorCall。 这 个 类 定义 于 rpc rendezvous_megr.cc 文件 ， 它 的 主要 
目的 在 于 : 一 是 实现 与 RecvTensor 调用 相关 的 异 构 设 备 内 存 分 配 、TensorResponse 对 象 管理 
等 辅助 操作 ; 二 是 建立 RecvTensor 与 会 合 点 机 制 的 关联 ， 使 其 能 够 驱动 进程 间 数 据 通 信 。 
RpcRecvTensorCall 类 的 常用 方法 包括 Init 与 start，, 分 别 用 于 初始 化 和 启动 RecvTensor 调 
用 。Init 方法 传人 RecvTensorRequest 对 象 所 需 的 执行 步 ID 和 会 合 点 键 ， 以 及 设备 指针 、 内 
存 分 配器 参数 和 操作 完成 回调 函数 ， 从 而 为 本 对 象 即将 执行 的 RecvTensor 调用 提供 必要 的 信 
息 。Sstart 方法 由 私有 的 StartRTCal1 方法 实现 , 它 在 指定 设备 上 分 配 TensorResponse 对 象 
的 内 存 ， 然 后 将 Init 方法 传人 的 回调 函数 简单 包装 ， 传 递 给 代理 方法 RecvTensorAsync， 从 而 
启动 RecvTensor 调用 。 调 用 完成 之 后 ，Init 方法 传人 的 回调 函数 可 以 通过 RpcRecvTensorCall 
的 tensor 方法 访问 返回 响应 中 的 Tensor 对 象 。 为 了 避免 并 发 的 外 部 调用 频繁 创建 和 删除 
RpcRecvTensorCall 对 象 的 开销 ，TensorFlow 提供 了 一 个 可 复 用 RpcRecvTensorCall 对 象 的 列表 ， 
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这 些 对 象 
进程 


和 


示 。 远 程 会 合 点 


RpcRecvTensorFreeList 类 管理 。 


间 张 量 传输 的 


会 合 点 


i 实现 于 RpcRemoteRendezvous 类 ， 它 逐 级 双 


与 进程 内 的 设计 有 一 定 相似 性 ， 相 关 类 的 UML 类 图 如 图 13-13 所 


化 承 了 名 为 BaseRemoteRendezvous 


和 RemoteRendezvous 的 基 类 。 


基 类 存在 的 主要 价值 是 为 支持 其 他 远程 访问 方式 提 伐 
BaseRemoteRendezvous 对 象 包含 一 个 私有 的 Rendezvous 指针 ， 


t 扩 展 能 


指向 与 之 绑 定 的 LocalRendezvousImpl 


会 合 点 场 


对 象 .后 者 的 功能 同 其 在 进程 内 


景 下 一 致 , 是 张 量 在 同一 本 地 设备 内 传输 的 实际 执行 者 。 


BaseRemoteRendezvous 类 约定 : 发 送 操作 始终 访问 本 设备 内 存 ， 接 收 操作 可 以 访问 本 地 进程 或 远 


程 进程 内 存 。 每 个 全 局 唯一 的 执行 步 对 应 到 一 个 远程 会 合 点 对 象 . 继 承 自 RendezvousMgrInterface 


接口 的 BaseRendezvousMgr 类 及 其 子 类 RpcRendezvousMgr 用 于 对 本 地 的 所 有 远程 会 合 点 对 象 
进行 管理 ， 可 以 通过 执行 步 ID 查找 或 创建 相应 的 会 合 点 实例 。 


Rendezvous 


+Send 
+ RecvAsync 
+Recv 
+ StartAbort 


+CreateKey 
+ ParseKe 


八 


Initialize 

+Send 

+RecvAsync 

+ StartAbort 

十 RecvLocalAsync 

# RecvFromRemoteAsync 
— SameWorkerRecvDone 


LocalRendezvousImpl 


—table : Table 

+Send RpcRemoteRendezvous 

+ RecvAsync | 
+ StartAbort # RecvFromRemoteAsync 


图 13-13 ”远程 合 点 相关 类 的 UML 类 图 ( 


远程 会 合 点 


方法 。RpcRemoteRendezvous 继承 了 父 类 的 这 个 方法 ， 用 于 异步 接收 本 地 数据 流 


只 列 出 关键 成 员 变 量 与 方 沪 


+ Find 
+ RecvLocalAsync 
+ RecvLocal 


BaseRendezvousMer 
—table :Table 


t+ Find 
十 RecvLocalAsync 
十 RecvLocal 


一 FindOrCreate 


RpcRendezvousMer 


 ) 


为 worker 服务 器 端 提 供 的 能 力 体现 在 BaseRemoteRendezvous : :RecvLocalAsync 


图 计算 生成 的 


张 量 ， 以 便 封装 到 RecvTensor 的 响应 消息 中 。 该 方法 借助 RecvLocalAsyncInternal 方法 , 将 
参数 转发 给 内 部 LocalRendezvousImpl 对 象 的 RecvAsync 方法 处 理 。 对 于 RecvTensor 接口 ， 


BH Su 


其 服务 需 端 
GrpcWorker: :RecvTensorAsync 方法 。 这 个 方法 可 以 通过 W 
对 象 ， 继 而 找到 与 当前 执行 步 ID 匹配 的 RpcRemoteRe 
RecvLocalAsync 方法 实现 张 量 在 本 地 的 获取 。 


实现 函数 GrpcWorkerService: :RecvTensorHandlerRaw 在 内 部 以 异步 线程 方式 调 月 


orkerEnv 指针 访问 RpcRendezvousMgr 
ndezvous 对 象 ， 然 后 调用 该 对 象 的 


远程 会 合 点 为 worker 客户 端 提供 的 能 力 体 现在 BaseRemoteRendezvous: :RecvAsync 方法 。 


RpcRemoteRendezvous 继承 了 父 类 的 这 个 方法 ， 用 于 选 搓 


对 性 地 从 本 地 或 远程 获取 张 量 。 它 会 根 


据 Recvop 传人 的 键 进行 判断 :对 于 张 量 源 和 目标 位 于 本 地 的 情况 ,转发 给 LocalRendezvousImp1 
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对 象 的 RecvAsync 方法 处 理 ， 其 中 跨 设 备 的 处 理 方式 与 IntraProcessRendezvous 类 的 做 法 相似 ; 
和 否则， 转发 给 实现 于 子 类 RpcRemoteRendezvous 中 的 RecvFromRemoteAsync 方法 。 该 方法 创建 
RpcRecvTensorCall 实例 ,实现 对 RecvTensor 接口 的 远程 过 程 调用 。 此 外 ,BaseRemoteRendezvous 
类 还 提供 本 地 发 送 张 量 的 send 方法 。 该 方法 在 RecvTensor 接口 中 并 不 使 用 ， 而 用 于 Sendop 
调用 。 

13-14 给 出 了 收发 双方 借助 远程 会 合 点 进行 进程 间 通 信 的 过 程 。 其 中 ， 接 收 方 的 调用 流程 
遵守 编号 所 示 的 时 序 ， 它 通过 普通 函数 调用 发 出 请 求 ， 以 匿名 回调 函数 方式 取得 响应 。 发 送 方 
sendop 的 执行 时 机 取决 于 数据 流 图 的 计算 进度 ， 与 是 否 收 到 RecvTensor 请 求 无 关 ， 因 此 图 中 
Send 方法 没有 标注 明确 的 时 序 。 这 幅 图 也 反映 了 TensorFlow 进程 间 数 据 通信 的 惯例 : 通信 是 
由 接收 方 主动 发 起 、 发 送 方 被 动 参与 的 ; Recvop 触发 跨 进程 的 数据 传输 ，Sendop 仅 处 理 本 地 元 
数据 。 


发 送 方 (gRPC 服 务 器 端 ) 。 ， 接收 方 (gRPC 客 户 端 ) 


4.RecvLocalAsync 5. Callback ， 7. Callback 2.RecvFromRemoteAsync 
6. Response 


3 .Request 


图 13-14 ”收发 双方 借助 远程 会 合 点 进行 进程 间 通 信 的 过 程 


为 了 更 清晰 地 说 明 RecvTensor 接口 所 涉及 的 远程 会 合 点 操作 与 gRPC 调用 的 执行 逻辑 ， 图 
13-15 和 图 13-16 分 别 给 出 了 RecvTensor 方法 在 服务 器 端 和 客户 端的 函数 调用 与 回调 流程 , 并 解 
释 了 其 中 以 lambda 表达 式 方式 定义 的 匿名 琢 数 的 位 置 与 功能 。RecvTensor 相关 的 回调 函数 大 多 
在 其 末尾 般 套 调用 上 层 传 人 的 回调 函数 , 因此 它们 的 执行 顺序 恰好 与 其 定义 所 在 外 层 函 数 的 执行 
顺序 相反 。 利 用 捕获 参数 机 制 ， 回 调 函 数 一 般 会 对 其 外 层 函 数 定义 的 变量 进行 后 续 处 理 ， 因 此 在 
语义 上 与 外 层 函 数 具 有 密切 的 关联 。 可 以 看 出 ，lambda 表达 式 机 制 在 TensorFlow 进程 间 数 据 通 
信 中 用 得 非常 普遍 ， 它 为 异步 处 理 逻 辑 的 实现 提供 了 高 度 的 灵活 性 。 
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调用 : 处 理 请 求 回调 : 发 送 响应 


GrpcWorkerService::RecvTensorHandlerRaw grpc::ServerAsyncResponseWriter::Finish 


ThreadPool::Schedule(lambda()) 3 
、、 Call::SendResponse 


GrpcWorker::RecvTensorAsync 、 
BaseRendezvousMgr:RecvLocalAsync 


、 
\ 
、 
、 
\ 
\ 
、 
、 
\ 
、 * 
\ 
、 
、 
i \ 
、 
上 
\ 


BaseRemoteRendezvous::RecvLocalAsync 
BaseRemoteRendezvous::RecvLocalAsyncIntemal A lambda() 
序列 化 生成 响应 消息 ( 仅 对 CPU 


LocalRendezvousImpl::RecvAsync 


、 


一 一 函数 调用 关系 ----- * 匿名 函数 定义 
图 13-15 ”RecvTensor 方法 在 服务 器 端的 函数 调用 与 回调 流程 
调用 : 发 送 请 求 回调 : 处 理 响应 


RecvOp::ComputeAsync Cy done_cb= lambda0 


专 入 的 回调 函数 以 使 用 张 量 做 计算 


BaseRemoteRendezvous::RecvASsync 


RpcRemoteRendezvous ::RecvFromRemoteAsync 上 上- - - ,lambdal) _ Su 
2 调 函 数 之 后 释放 远程 会 合 点 资源 


RpcRecvTensorCall:: Start 


RpcRecvTensorCall::StartRTCall --- cb = lambda( 


检查 gRPC 返 回 状态 
GrpcRemoteWorker::RecvTensorAsynce 、 

= 、 wrapper_done = 1lambda() 
GrpcRemoteWorker::IssueRequest 删除 请 求 对 象 副本 ， 操 作 计时 

GrpcRemoteWorker::RPCState::StartRPC 

grpc:: ClientAsyncResponseReader::Finish 
远程 过 程 调用 

一 一 函数 调用 关系 。 - - -* 匿名 函数 定义 

图 13-16 RecvTensor 方法 在 客户 端的 函数 调用 与 回调 流程 


GrpcRemoteWorker::RPCState::OnCompleted 


13.4 RDMA 通信 模块 


在 商用 集群 中 ,1Gb/s~10Gb/s 的 以 太 网 是 最 常见 的 网 络 环境 。 但 在 高 性 能 计算 ( High-Performance 
Computing，HPC ) 领域 ，InfiniBand 等 高 带宽 、 低 延迟 的 高 端 网 络 才 是 主流 的 通信 基础 设施 。 随 
着 互联 网 、 大 数据 应 用 对 通信 能 力 要 求 的 不 断 提 高 ， 这 类 普遍 带宽 达到 40Gb/s~300Gb/s 的 高 端 
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网 络 设备 也 逐渐 走 进 了 商用 集群 。InfiniBand 等 高 性 能 网 络 虽然 兼容 TCP/IP 协议 , 但 为 了 发 挥 性 
能 极限 ,一 般 需 要 使 用 专用 的 网 络 协 议 , 在 InfiniBand 协议 栈 中 ,远程 直接 内 存 访 问 ( Remote Direct 
Memory Access，RDMA ) 特性 得 到 了 用 户 的 重点 关注 和 普遍 使 用 。RDMA 特性 能 够 减少 通信 过 
程 中 数据 在 不 同 层次 内 存 之 间 的 复制 , 降低 了 CPU 参与 通信 时 的 指令 、 缓 存 与 上 下 文 切 换 开 销 ， 
从 而 有 利于 提高 吞吐 率 ， 缩 短 延 迟 ， 更 好 地 实现 计算 与 通信 的 重 释 。 

Google 公开 资料 显示 ， 其 公司 内 部 的 深度 学 习 系 统 使 用 了 InfiniBand 网 络 与 RDMA 协议 ， 
不 过 TensorFlow 的 开源 版 本 没有 提供 相关 代码 。 好 在 开源 社区 能 够 群策群力 ， 一 些 第 三 方 贡献 的 
组 件 增 强 了 TensorFlow 对 高 性 能 网 络 的 支持 。Yahoo! 发 布 的 RDMA 通信 模块 已 被 社区 所 接纳 ， 
放置 在 TensorFlow 源 代码 包 的 tensorflow/contrib/verbs 目录 下 。 本 节 介 绍 这 一 模块 的 设计 实现 原理 。 


13.4.1 ”模块 结构 


RDMA 通信 模块 的 基本 设计 思路 是 : 保留 TensorFlow 原 有 的 、 基 于 HTTP-TCP/IP 协议 的 
gRPC 进程 间 控 制 通信 能 力 , 将 进程 间 数 据 通信 的 实现 迁移 到 支持 RDMA 特性 的 InfiniBand 协议 
栈 (其 通信 原 语 称 为 IB verbs )。 在 技术 实现 时 ， 该 模块 利用 了 TensorFlow 核心 提供 的 若干 种 可 
扩展 机 制 , 基本 做 到 了 与 原 有 代码 的 解 籼 。 用 户 若 需 使 用 RDMA 特性 , 只 需要 在 编译 TensorFlow 
源 代码 包 之 前 ， 开 启 configure 脚本 中 相应 的 配置 项 即 可 。 

13-17 给 出 了 RDMA 通信 模块 的 组 件 结构 。 为 了 保留 原 有 的 gRPC 机 制 , 该 模块 以 继承 自 
GrpcServer 类 的 VerbsServer 类 作为 框架 性 组 件 .verbsserver 在 继承 Grpcserver 原 有 master 
和 worker 服务 的 同时 ， 额 外 提供 verbs 服务 。 这 一 gRPC 服务 用 于 传输 InfiniBand 通信 原 语 所 需 
的 元 信息 ， 其 唯一 接口 是 GetRemoteAddress 函数 。verbs 服务 的 服务 器 端 接口 类 和 客户 端 存根 
类 分 别 是 GrpcVerbsService 和 GrpcVerbsClient。 在 应 用 代码 中 ， 用 户 如 果 将 API 层 Server 
对 索 (比如 Python API 中 的 tensorflow.train.Server ) 的 protocol 属性 设置 为 grpc+verbs， 
TensorFlow 核心 的 服务 器 工厂 机 制 就 会 创建 verbsserver 对 象 以 取代 默认 的 GrpcServer 对 象 ， 
为 RDMA 通信 提供 服务 。 为 了 协调 异步 收发 过 程 , RDMA 通信 模块 同样 需要 会 合 点 机 制 - RDMA 
通信 的 会 合 点 类 是 RdmaRemoteRendezvous， 它 是 BaseRemoteRendezvous 的 子 类 ， 并 具有 名 为 
RdmaRendezvousMgr 的 管理 需 类 型 这 一 会 合 点 的 主要 方法 语义 同 RpcRemoteRendezvous 相似 。 


gRPC 客 户 站 [Gmpoverpscliont| [IBverbs | 
IB 元 信息 通信 | 消息 (数据 ) 通信 


ee -| RdmaMessage 

gRPC 服 务 器 端 GrpcVerbsService edie 
VerbsServer i 

RdmaRendezvousMegr RdmaMegr RdmaA dapter 


RdmaRemoteRendezvous RdmaChannel | 
message buffer | | | 
IE 


图 13-17 RDMA 通信 模块 的 组 件 结构 
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由 于 IB verbs 的 语义 及 调用 规范 与 gRPC 有 较 大 差异 ， 为 了 将 RDMA 通信 操作 高 效 地 融入 
TensorFlow 核心 层 的 工作 流程 ，RDMA 通信 模块 提供 了 一 系列 适 配 组 件 。RdmaMgr 是 统筹 管理 
RDMA 通信 相关 对 象 的 管理 器 组 件 ， 它 为 会 合 点 对 象 提 供 了 访问 RDMA 通信 功能 的 接口 。 
RdmaAdapter 组 件 封装 了 InfiniBand 驱动 及 IB verbs 接口 ， 以 便 控制 InfiniBand 网 卡 完成 RDMA 
通信 逻辑 。RDMA 通信 模块 将 通信 所 使 用 的 内 存 缓冲 区 ( 简称 “RDMA 缓冲 区 ”) 抽象 为 
RdmaBuffer 类 ， 将 两 个 进程 之 间 的 通信 链 路 抽象 为 Rdmachannel 类 。RDMA 通信 和 链 路 上 传输 的 
消息 由 RdmaMessage 结构 封装 ， 这 些 消 息 既 包括 用 于 管理 通信 时 序 的 控制 消息 ， 也 包括 用 于 承 
载 张 量 的 数据 消息 。 每 个 RdmaChannel 对 象 包含 一 组 RdmaBuffer 对 象 的 指针 , 它们 分 别 指向 一 
对 控制 消息 收发 缓冲 区 ( message buffer RX/TX )、 一 对 响应 消息 收发 缓冲 区 ( ACK buffer RX/TX ) 
和 一 系列 张 量 数据 缓冲 区 ( tensor buffer vector )。 


13.4.2 ”消息 语义 


尽管 TensorFlow 的 数据 收发 操作 和 IB verbs 的 通信 原 语 都 属于 消息 传递 通信 范畴 , 然而 它们 
的 接口 语义 以 及 对 环境 的 要 求 有 明显 的 不 同 。TensorFlow 的 数据 收发 操作 语义 是 与 数据 流 图 计算 
引擎 的 异步 性 、 随 机 性 相 适 应 的 。 在 对 接 gRPC 通信 库 时 ， 它 能 够 利用 gRPC 函数 调用 通信 接口 
内 置 的 请 求 一 一 响应 匹配 、 消 息 内 存 动 态 分 配 等 自动 化 机 制 , 因此 上 层 实 现 逻 辑 相 对 简单 和 直接 。 
相 比 之 下 ，IB verbs 的 通信 原 语 更 加 底层 ， 不 提供 消息 缓存 、 内 存 分 配 、 动 态 调 度 等 高 级 功能 。 
它 需 要 开发 者 显 式 维护 消息 收发 所 需 的 内 存 缓冲 区 , 并 要 求 发 送 方 掌握 代表 接收 方 内 存 地 址 的 远 
程 内 存 键 (remote key )。RDMA 通信 还 要 求 将 缓冲 区 注册 为 锁 页 (pinned ) 内 存 ， 且 内 存 注 册 过 
程 存在 较 大 开销 。 这 些 特点 均 与 TensorFlow 动态 内 存 管理 、 异 步 操 作 调用 的 设计 存在 矛盾 。 


针对 这 些 问 题 ，TensorFlow 的 RDMA 通信 模块 提供 了 一 套 基于 缓冲 区 预 分 配 和 消息 交互 的 
解决 方案 ,该 模块 的 工作 流程 很 大 程度 上 是 围绕 内 存 管理 和 时 序 控制 展开 的 。 


所 谓 缓冲 区 预 分 配 , 是 指 RDMA 通信 原 语 使 用 一 组 预先 分 配 、 相 对 静态 的 锁 页 内 存 缓冲 区 ， 
而 非 TensorFlow 固有 的 TensorBuffer。 在 通信 过 程 中 ， 张 量 数据 需要 在 两 种 缓冲 区 之 间 进 行 本 
地 复制 。 虽 然 这 有 违 RDMA 开发 中 “ 零 复制 ”的 最 优 原则 ， 但 是 它 有 效 地 权衡 了 运行 时 性 能 点 
易 编 程 性 。 为 了 减少 RDMA 缓冲 区 分 配 和 注册 开销 ， 同 时 提高 内 存 利 用 率 ，RDMA 通信 模块 采 
用 了 一 种 基于 数据 流 图 语义 的 缓冲 区 复 用 机 制 。 对 于 同一 幅 数据 流 图 , 同名 张 量 进入 下 一 执行 步 
后 ， 只 要 大 小 没有 增长 ， 其 缓冲 区 就 可 以 在 执行 步 间 复 用 。 对 于 少数 张 量 大 小 增长 的 特殊 情况 ， 
可 以 实时 分 配 新 的 RDMA 缓冲 区 。 

所 谓 消 息 交 互 ， 是 指 RDMA 通信 模块 采用 带 有 语义 的 消息 实现 通信 时 序 管理 。 表 13-2 给 出 
了 该 模块 的 消息 类 型 及 其 功能 简 述 。 可 以 看 出 ， 除 了 用 于 张 量 传输 的 RDMA_MESSAGE_ 
TENSOR_WRITE 消息 ， 其 他 消息 均 属于 TensorFlow 适 配 IB verbs 通信 模式 所 需 的 控制 消息 及 其 对 
应 的 响应 消息 。 每 种 消息 内 部 均 包含 各 自 的 元 信息 字段 ， 例 如 消息 类 型 标识 、 执 行 步 ID 、 张 量 
的 名 称 和 形状 等 。IB verbs 只 支持 传输 字 节 流 ， 不 包含 对 数据 结构 进行 序列 化 的 功能 。 为 了 在 网 
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络 上 传输 结构 化 的 消息 , RdmaMessage 结构 提供 了 用 于 数据 序列 化 和 反 序 列 化 的 CreateMessage 


与 ParseMessage 方法 。 这 对 方法 为 不 同类 型 的 消息 分 


台 字 节 作 为 判断 消息 类 型 的 依据 。 


别 设 计 了 优化 的 存储 格式 ， 它 们 以 消息 起 


表 13-2 RDMA 通信 模块 的 消息 类 型 及 其 功能 简 述 


消息 类 型 


功 能 


RDMA_MESSAGE_ACK 
RDMA_MESSAGE BUFFER_IDLE 
RDMA_MESSAGE_BUFFER_REQUEST 
RDMA_MESSAGE_BUFFER_RESPONSE 
RDMA_MESSAGE_TENSOR_REQUEST 


RDMA_MESSAGE_TENSOR_WRITE 


响应 已 收 到 的 控制 消息 
声明 本 地 张 量 数据 缓冲 区 空闲 可 用 
请 求 远程 创建 张 量 数据 缓冲 区 
反馈 本 地 新 创建 的 张 量 数据 缓冲 区 
请 求 远程 提供 张 量 数据 
向 远程 写 信 张 量 数据 


Cx 


针对 进程 接收 到 的 消息 ，RDMA 通信 模块 内 置 一 套 事件 引擎 机 制 。 它 在 RdmaAdapter 类 的 
Process_CQ 方法 中 实现 了 基于 InfiniBand 完成 队列 轮 询 检测 的 消息 处 理 循环 。Process_CQ 方法 
会 在 参与 通信 的 进程 中 作为 独立 的 线程 运行 ,从 而 实时 响应 并 异步 处 理 其 他 进程 发 来 的 消息 。 表 
13-3 给 出 了 RDMA 通信 模块 对 不 同类 型 消息 的 处 理 逻 辑 。 


表 13-3 RDMA 通信 模块 的 消息 处 理 逻 辑 


消息 类 型 消息 处 理 逻 辑 
RDMA_MESSAGE_ACK 标记 远程 控制 消息 缓冲 区 为 空闲 ， 发 送 下 一 条 消息 
RDMA_MESSAGE_BUFFER_IDLE 发 送 响应 ， 标 记 远程 张 量 数据 缓 冲 区 为 空闲 ， 发 送 下 一 条 消息 


RDMA_MESSAGE_BUFFER_REQUEST | 发 送 响 
消息 
RDMA_MESSAGE_BUFFER_RESPONSE | 发 送 


慨 


， 查 找 或 创建 张 量 数据 缓冲 区 ， 发 送 RDMA_MESSAGE_BUFFER_RESPONSE 


这 
~ 
TE 互 


RDMA_MESSAGE_TENSOR_REQUEST | 发 送 


局 


应 , 设置 远程 张 量 数据 缓冲 区 信息 , 标记 本 地 和 远程 缓冲 区 为 空闲 ,发 送 下 


， 查 找 或 创建 张 量 数据 缓冲 区 ， 发 送 下 一 条 消息 


RDMA_MESSAGE_TENSOR_WRITE 运行 RdmaRemoteRendezvous: :RecvFromRemoteAsync 方法 定义 的 回调 函数 


RdmaMessage 结构 和 序列 化 消息 存储 的 元 信息 


\ 大 多 与 TensorFlow 核心 层 的 语义 相关 。 除 此 之 


外 ,RDMA 通信 还 需要 IB verbs 层 面 的 通信 接口 元 信息 ,例如 InfiniBand 通 道 的 本 地 标识 符 ( LID )、 
队列 对 序号 ( QPN )、 包 序列 号 (PSN )， 以 及 注册 内 存 的 地 址 和 远程 内 存 键 等 。 这 些 元 信息 封装 
在 verbs_service.proto 文件 定义 的 Channel 和 MemoryRegion 数据 结构 中 ， 通 过 verbs gRPC 服务 


的 GetRemoteAddress 接口 以 “ 带 外 ”方式 传输 。i 


13.4.3 ”通信 流程 


这 一 设计 简化 了 RDMA 通信 的 自 举 过 程 。 


TensorFlow RDMA 通信 模块 的 工作 流程 遵循 一 条 与 原 有 gRPC 通信 机 制 相同 的 惯例 ， 即 
sendop 只 负责 将 待 发 送 的 张 量 加 入 本 地 会 合 点 的 消息 列表 ,不 主动 进行 数据 传输 ; Recvop 真正 
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触发 通信 过 程 ， 随 后 的 数据 传输 由 收发 双方 的 远程 会 合 点 对 象 协作 完成 。RDMA 通信 模块 使 用 
13.4.2 节 所 述 的 消息 组 合 取代 gRPC 通信 机 制 中 的 RecvTensor 接口 。 为 简单 起 见 ， 后 面 对 通 信 
参与 方 的 称呼 以 张 量 传输 过 程 为 基准 ， 将 RDMA_MESSAGE_TENSOR_WRITE 消息 的 收发 双方 定义 为 
通信 过 程 的 “接收 方 ” 与 “发 送 方 ”。 

RDMA 通信 模块 触发 数据 传输 的 入 口 函 数 与 gRPC 机 制 的 worker 客户 端 入 口 流 程 类 似 ， 即 
经 由 RecvOp: :ComputeAsync—BaseRemoteRendezvous: :RecvAsync—RdmaRemoteRendezvous:: 
RecvFromRemoteAsync 方法 启动 张 量 接收 。 我 们 首先 考虑 最 简单 的 情况 ， 即 收发 双方 用 于 存储 
张 量 的 RDMA 缓冲 区 已 经 就 绕 。 图 13-18 给 出 了 这 种 情况 下 双方 的 执行 时 序 。 

发 送 方 接收 方 

RecvOp. ComputeAsync 
BaseRemoteRendezvous::RecvAsync 


ENSOR REQUES ， 
RdmaMessageBuffer::SendNextItem 1 

RdmaAdapter::Process CQ . 
RdmaAckBuffer::SendNextltem 1 
RdmaChannel.:FindOrCreateBuffer — ， 


RdmaTensorBuffer::SendNextItem RdmaAdapter: Erocess:CO 


TNSOR Wi RdmaAdapter::Process CQ 
RdmaChannel::RunRecvCallback 


RdmaChannel::FindBuffer 
RdmaMessage::ParseMessage 


BUFFER IDLE 
RdmaMessageBuffer::SendNextItem 
RdmaAdapter::Process CQ 


一 一 消息 传递 关系 - - -匿名 函数 定义 
图 13-18 使 用 RDMA 通信 模块 进行 张 量 传输 的 典型 执行 时 序 


RecvOp 执行 时 ， 接 收 方 的 RdmaRemoteRendezvous: :RecvFromRemoteAsync 方法 会 调用 
RdmaMessageBuffer::SendNextItem 方法 ， 疝 发 送 方 发 出 带 有 张 量 名 称 和 执行 步 ID 字段 的 
RDMA_MESSAGE_TENSOR_REQUEST 消息 。 发 送 方 的 RdmaAdapter::Process_CQ 方 法 检测 到 这 一 消 
息 后 ， 首 先 发 出 RDMA_MESSAGE_ACK 消息 进行 响应 ， 然 后 找到 等 发 送 张 量 所 在 的 缓冲 区 ， 并 把 用 
于 发 送 张 量 的 RdmaTensorBuffer: :SendNextItenm 方法 调度 到 线程 池 中 执行 。 待 该 方法 执行 后 ， 
接收 方 的 Process_ce 方法 会 检测 到 带 有 张 量 数据 和 元 信息 的 RDMA_MESSAGE_TENSOR_WRITE 消 
息 。 Process_CQ 方法 对 这 种 消息 的 处 理 流程 是 将 本 进程 的 RecvFromRemoteAsync 方法 事先 注册 
的 回调 函数 加 载 到 线程 池 中 执行 。 回 调 函 数 会 从 本 地 缓冲 区 中 取出 RDMA_MESSAGE_TENSOR_ 
WRITE 消息 ， 将 其 字 节 流 反 序列 化 为 Tensor 对 象 ， 然 后 把 对 象 复制 到 会 合 点 参数 指示 的 目标 设 
备 内 存 。 人 处 理 完毕 之 后 , 回调 函数 随即 向 发 送 方 发 送 RDMA_MESSAGE_BUFFER_IDLE 消息 , 告知 对 
方 同一 RDMA 缓冲 区 已 可 为 下 一 执行 步 提供 服务 。 最 后 ， 这 一 回调 函数 还 会 继续 调用 上 层 传 人 
的 回调 函数 ， 以 便 操 作 节 点 使 用 张 量 数据 执行 计算 逻辑 。 

接 下 来 讨论 现 有 张 量 数据 缓冲 区 大 小 不 能 满足 通信 需求 的 情况 , 为 此 我 们 有 必要 理解 张 量 发 
送 方 法 RdmaTensorBuffer: :SendNextItenm 的 实现 原理 。 该 方法 内 部 调用 BaseRemoteRendezvous : : 
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RecvLocalAsync 方法 ， 从 会 合 点 取得 本 地 Sendop 传人 的 数据 。 它 将 一 个 匿名 的 完成 回调 函数 传 
人 RecvLocalAsync 方法 ， 以 便 在 会 合 点 数据 就 绪 时 发 送 张 量 。 这 个 回调 函数 会 检查 发 送 方 缓冲 区 
是 否 能 够 容纳 待 发 送 的 数据 。 因 为 不 同 进程 中 的 同名 张 量 数据 缓冲 区 在 同一 执行 步 中 具有 相同 的 


大 小 ， 所 以 发 送 方 的 缓冲 区 大 小 也 反映 了 接收 方 的 缓冲 


区 大 小 。 如 果 绥 冲 区 空间 足够 ， 那么 回调 


函数 会 创建 并 发 送 前 文 所 述 的 RDMA_MESSAGE_TENSOR_WRITE 消息 。 和 否则 ， 回 调 函 数 首先 调用 
RdmaBuffer: :CreateCPUBuffer 方法 ,在 本 地 创建 更 大 的 新 缓冲 区 ;然后 创建 并 发 送 RPMA_MESSAGE_ 
BUFFER_REQUEST 消息 ， 请 求 接收 方 也 创建 相同 大 小 的 新 缓冲 区 。 当 发 送 方 收 到 来 自 接收 方 反馈 
的 RDMA_MESSAGE_BUFFER_RESPONSE 消息 后 ， 消 息 处 理 函 数 会 通过 RdmaChannel: :FindBuffer 
方法 查找 到 此 前 创建 的 新 缓冲 区 ， 随 后 再 次 调用 RdmaTensorBuffer: : SendNextItenm 方法 发 送 


数据 。 图 13-19 展示 了 这 一 流程 的 执行 时 序 。 
发 送 方 


RdmaTensorBuffer::SendNextItem 
7 | BaseRemoteRendezvous::RecvLocalAsync 
- lambda() 
RdmaBuffer::CreateCPUBuffer BUFFER REQUEST 
RdmaMessageBuffer::SendNextItem 


一 消息 传递 关系 


接收 方 


RdmaAckBuffer::SendNextItem 
RdmaChannel::FindBuffer RdmaAdapter: Process CO 
RdmaTensorBuffer::SendNextltem 
RdmaAdapter:: Process CQ 
---* 匿名 函数 定义 


图 13-19 使 用 RDMA 通信 模块 请 求 创建 张 量 缓冲 区 的 执行 时 序 
最 后 ， 我 们 来 看 TensorFlow RDMA 通信 模块 的 消 ) 


息 收 发 操作 如 何 落实 于 InfiniBand 网 卡 。 


各 个 RdmaBuffer 子 类 的 SendNextItenm 方法 最 终 都 会 调用 RdmaBuffer : :Write 方法 , 该 方法 使 
用 IBverbs 的 ibv_post_send 原 语 ,发 起 异步 的 远程 内 存 写 和 操作。 传统 上 ，IB verbs 提供 两 类 
消息 通信 模式 : 双边 收发 (two-sided send/recv ) 与 单 边 读 写 (one-sided read/write )。 前 者 易于 实施 
时 序 控制 , 后 者 具有 更 好 的 性 能 。RdmaBuffer: :Write 方法 没有 选用 这 两 种 经 典 模式 ， 而 是 采用 另 

种 兼顾 二 者 优势 的 折 中 模式 : 带 有 立即 数据 的 RDMA 写 人 (IBV_WR_RDMA_WRITE_WITH_IMM )。 
这 种 模式 既 能 够 以 直接 内 存 访 问 方式 在 远程 设备 中 写 入 数据 ,， 有 助 于 通信 性 能 的 提升 ; 又 允许 接 
收 方 通过 完成 队列 机 制 感知 到 通信 的 结束 ， 有 利于 时 序 控制 的 简化 。 
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消息 处 理 循环 的 核心 机 制 一 一 InfiniBand 完成 队列 轮 询 检 测 是 由 RdmaAdapter: :Process_CQ 


方法 内 部 调用 的 ibv_poll_cq 原 语 实现 的 , 而 消息 接收 则 是 由 Process_CQ 级 联 的 RdmaChannel: :Recv 
方法 内 部 调用 的 ibv_post_recv 原 语 实现 的 。 这 些 IB verbs 原 语 只 会 处 理 InfiniBand 网 卡 的 收发 


队列 和 完成 队列 相关 事项 ， 不 会 像 以 太 网 的 socket 接口 那样 在 不 同 层次 的 缓冲 区 之 间 复 制 数据 。 


这 是 因为 ,在 ibv_poll_cq 原 语 返 回 的 前 一 刻 ， 数 据 已 经 被 远程 进程 写 和 人 了 本 地 进程 事先 注册 


的 锁 页 内 存 一 一 这 正体 现 了 RDMA 协议 的 能 力 与 优势 。 有 兴 


趣 的 读者 可 以 阅读 InfiniBand 官方 


技术 文档 或 Linux 系统 联机 手册 ， 了 解 有 关 IB verbs 的 更 多 知识 。 


13.5 小结 


通信 机 制 是 TensorFlow 平台 的 重要 组 成 部 分 ， 也 是 数据 流 图 执行 过 程 不 可 缺少 的 环节 。 通 


信 机 制 的 存在 , 使 得 单机 多 设备 及 多 机 分 布 式 的 并 行 计算 模式 成 为 可 能 ,并 为 跨 设备 和 跨 进程 的 
运行 时 调度 提供 支持 。TensorFlow 的 通信 机 制 包括 进程 内 通信 和 与 进程 间 通信 , 二 者 具有 统一 的 接 
口 一 一 Sendop 与 Recvop 类 ， 以 及 一 致 的 异步 收发 协调 机 制 一 一 会 合 点 。 进 程 内 通信 组 件 基 于 
CUDA 驱动 层 接 口 和 SYCL 技术 实现 了 数据 在 本 地 设备 之 间 的 传输 。 进 程 间 通信 组 件 基于 gRPC 


库 实现 了 数据 流 和 控制 流 在 分 布 式 进程 间 的 传输 。RDMA 通信 模块 作为 一 种 高 性 能 的 进程 间 通 


信 组 件 , 为 TensorFlow 充分 利用 InfiniBand 等 高 端 网 络 的 能 力 提 供 支 持 。TensorFlow 通信 机 制 的 


设计 与 实现 以 高 效 性 为 指导 原则 。 总 体 上 , 通信 接口 基于 异步 模式 设计 ， 有 助 于 实现 计算 与 通信 
逻辑 的 并 发 执行 。 在 GPU 内 存 复制 和 gRPC 数据 序列 化 等 局 部 技术 点 上 ，TensorFlow 设计 了 多 


种 优化 方案 ， 尽 可 能 减少 不 需要 的 开销 以 提升 通信 性 能 。 到 


解 通信 机 制 是 次 入 理解 TensorFlow 


数据 流 图 计算 原理 ， 尤 其 是 分 布 式 会 话机 制 的 基础 。 


数据 流 图 计算 原理 与 实现 


TensorFlow 将 神经 网 络 训练 与 推理 过 程 表 达 为 数据 流 图 计算 , 并 使 用 会 话 抽象 维护 计算 流程 
的 生命 周期 与 上 下 文 。 数 据 流 图 计算 是 TensorFlow 运行 时 库 最 重要 的 工作 职责 ， 是 将 直观 的 应 
用 层 API 语 义 映 射 到 高 效 的 核心 层 执行 逻辑 的 精髓 所 在 。 读 者 学 习 数 据 流 图 计算 的 设计 与 实现 ， 
是 理解 TensorFlow 核心 原理 的 关键 步骤 ， 也 是 对 运行 时 库 进 行 二 次 开发 的 必 备 环节 。 本 章 首 先 
介绍 TensorFlow 核心 层 的 计算 框架 整体 设计 以 及 数据 流 图 创建 涉及 的 主要 流程 与 抽象 ; 然后 针 
单机 与 分 布 式 两 种 运行 模式 , 分 析 两 种 会 话 的 设计 原理 及 其 典型 的 数据 流 图 执行 逻辑 ; 最 后 简 
述 图 上 操作 节点 在 计算 设备 上 的 调度 执行 过 程 。 


14.1 概述 


TensorFlow 的 数据 流 图 计算 过 程 ， 是 将 用 户 基 于 应 用 层 API 编写 的 、 以 神经 网 络 算法 为 代 
表 的 计算 逻辑 转换 为 C++ 核心 层 的 细 粒 度 、 抽 象 化 运行 时 形态 ， 进 而 在 计算 设备 上 以 一 致 而 有 
序 的 方式 调度 执行 的 过 程 。 核 心 层 以 较 少 的 接口 抽象 对 应 用 层 API 屏蔽 了 内 部 实现 的 复杂 性 。 
数据 流 图 计算 可 认为 包含 控制 流 与 数据 流 两 条 主线 。 在 控制 流 方 面 ， 会 话 (session ) 是 计算 流 
程 和 相关 对 象 生 命 周 期 的 管理 者 ， 旨 在 保证 计算 时 序 的 正确 性 与 高 效 性 。 在 数据 流 方 面 ， 图 
( graph ) 是 算法 逻辑 和 张 量 数据 的 承载 者 ， 图 上 元 素 的 分 解 和 重组 实现 了 应 用 层 数 据 结构 同 并 
行 计算 设备 的 桥接 。 
14-1 给 出 了 数据 流 图 计算 的 整体 调用 栈 。 我 们 可 以 将 数据 流 图 计算 粗略 地 划分 为 应 用 程 
序 逻 辑 、 会 话 生命 周期 和 算法 核 函 数 执行 这 3 个 层次 。 
口 在 应 用 程序 逻辑 中 ， 用 户 使 用 Python 等 应 用 层 API 及 高 层 抽象 编写 算法 模型 ， 无 须 关 心 
图 切 分 、 进 程 间 通信 等 底层 实现 逻辑 。 算 法 涉及 的 计算 逻辑 和 输入 数据 绑 定 到 图 抽象 
中 ， 计 算 和 迭代 控制 语义 体现 在 会 话 运行 前 后 的 控制 代码 上 。 
口 在 会 话 生 命 周期 层次 ， 单 机 会 话 与 分 布 式 会 话 具 有 不 同 的 设计 : 单机 会 话 采 用 相对 简单 
的 会 话 层次 与 图 封装 结构 ， 它 将 图 切 分 、 优 化 之 后 ， 把 操作 节点 和 张 量 数据 提交 给 底层 
执行 器 ; 分 布 式 会 话 分 为 client、master 和 worker 三 层 组 件 ， 它 们 对 计算 任务 进行 分 解 和 
分 发 ， 并 通过 添加 通信 操作 来 确保 计算 逻辑 的 完整 性 。 


> 
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口 在 算法 核 函 数 执行 层次 ， 执 行 右 抽象 将 会 话 传 入 的 核 函 数 加 载 到 各 个 计算 设备 上 有 序 执 
行 。 为 充分 利用 多 核 硬件 的 并 发 计算 能 力 ， 这 一 层次 提供 线程 池 调 度 机 制 ; 为 实现 众多 
并 发 操作 的 异步 执行 和 分 布 式 协同 ， 这 一 层次 引入 了 通信 会 合 点 机 制 。 


Python Application 


ee 
7 人 ~ < 一 人 \ 
--------------------------+----- 1 ES m2 TN TE 
单机 会 话 ; AN 分 布 式 会 话 
cue 
' i 
/ 
会 话 生 命 周 期 ! | Master 
SimpleClientGraph ' ReffedClientGraph 
- : 三 
' | Worker 
GraphMgr 


本 


Ss 
----* 控制 流 一 一 > 数据 流 
图 14-1 数据 流 图 计算 的 整体 调用 栈 


TensorFlow 数据 流 图 计算 机 制 的 设计 权衡 了 灵活 性 与 高 效 性 。 在 灵活 性 方面 ，TensorFlow 尽 
可 能 将 不 同 层次 的 组 件 解 厢 ， 允 许 其 在 多 种 应 用 场景 下 复 用 。 例如 ,执行 器 抽象 同 会 话 类 型 和 设 
备 种 类 无 关 , 在 不 同 的 运行 模式 下 能 够 以 统一 的 接口 操作 核 函 数 。 在 高 效 性 方面 ，TensorFlow 针 
对 特定 场景 设计 了 多 种 优化 方法 和 旁 路 (bypass ) 路 径 ， 在 不 损坏 系统 整体 逻辑 的 前 提 下 增强 局 
部 执行 性 能 。 例 如 ，master 组 件 具 有 用 于 本 进程 内 访问 的 优化 版 本 ， 能 够 避免 不 必要 的 网 络 传输 
开销 。 


14.2 ”数据 流 图 创建 


数据 流 图 是 TensorFlow 计算 过 程 的 基本 抽象 。 用 户 在 程序 代码 中 通过 应 用 层 API 定义 的 数 
据 流 图 并 不 能 直接 用 于 运行 时 核心 的 内 部 计算 。 它们 将 随 着 会 话 的 构造 和 运行 , 被 转换 为 运行 时 
核心 可 执行 的 数据 流 图 格式 一 一 这 就 是 TensorFlow 核心 的 数据 流 图 创建 过 程 ,该 过 程 的 输入 一 般 
是 应 用 层 API 定义 的 、 直 观 表达 计算 逻辑 的 数据 流 图 格式 (例如 Python API 中 的 tensorflow.Graph 
类 )， 输 出 为 TensorFlow 核心 定义 的 、 绑 定 到 具体 计算 设备 和 算法 实现 的 数据 流 图 格式 〈 即 C++ 
代码 中 的 Graph 类 及 其 成 员 类 型 )。 在 数据 流 图 创建 的 过 程 中 ， 基 于 Protocol Buffers 文件 定义 的 
GraphDef 等 数据 结构 因 具 有 跨 语 言 、 易 操作 的 优势 ， 常 被 一 些 中 间 函 数 用 于 表示 拓扑 、 无 计算 
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语义 的 数据 流 图 中 介 格 式 。 


创建 数据 流 图 的 入口 函数 和 上 层 调用 路 径 依据 应 用 使 用 的 编程 语言 、API 版 本 及 运行 模式 的 
不 同 而 有 所 差异 ,但 底层 实现 逻辑 基本 一 致 。 本 节 以 TensorFlow Python API 开发 的 单机 应 用 为 例 ， 
说 明 数 据 流 图 创建 的 实现 原理 。 


14.2.1 流程 与 抽象 


数据 流 图 创建 过 程 主要 包括 全 图 构造 、 子 图 提取 、 图 切 分 和 图 优化 等 阶段 。 为 了 说 明 
TensorFlow 核心 层 创建 数据 流 图 的 过 程 ， 图 14-2 给 出 了 一 组 在 真实 情况 基础 上 简化 过 的 典型 流 


程 示例 ,展示 了 一 个 简单 的 计算 逻辑 所 创建 的 数据 流 图 在 各 个 阶段 的 变化 。 其 中 , 节点 内 的 字母 
代表 其 对 应 的 操作 或 变量 , 节点 背景 颜色 代表 其 被 分 配 的 计算 设备 。 基 于 这 一 直观 认识 ,我 们 进 
一 步 分 析 数 据 流 图 创建 过 程 的 内 部 实现 。 


| 4. Ee 
== 3. 图 切 分 


ee 


图 14-2 ”数据 流 图 创建 的 典型 流程 


对 于 经 由 Python API 调用 会 话 接口 的 ' 语汇 ， TensorFlow 核心 层 的 数据 流 图 创建 过 程 一 般 是 在 
会 话 运行 时 启动 的 。tensorflow.Session 类 的 run 方法 及 其 级 联 调 用 的 内 部 方法 会 依次 调用 C 
API 的 TF_ExtendGraph 和 TF_Run 函数 。 前 者 实现 会 话 及 其 绑 定 数据 流 图 的 初次 构造 或 后 续 扩 
展 ， 后 者 实现 面向 特定 变量 及 其 对 应 子 图 的 会 话 运行 。 之 所 以 需要 在 每 次 TF_Run 之 前 均 执行 一 
次 TF_ExtendGraph， 是 为 了 让 应 用 代码 中 的 数据 流 图 变化 及 时 反映 到 核心 可 执行 的 数据 流 图 中 。 
在 单机 运行 模式 下 ，C API 的 这 两 个 方法 内 部 分 别 调用 C++ 核心 层 Directsession 类 的 Extend 
和 Run 方法 实现 。 图 14-3 和 图 14-4 分 别 给 出 了 Directsession 类 在 会 话 构 造 和 运行 时 , 涉及 数 
据 流 图 创建 过 程 的 主要 流程 。 在 图 14-3 和 图 14-4 中 ， 自 上 而 下 级 联 的 方 框 表示 主要 方法 及 其 调 
用 关系 ， 方 框 左 上 与 右 侧 的 类 型 名 称 表示 特定 方法 中 ， 与 数据 流 图 相关 的 输入 、 输 出 数据 结构 。 
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GraphDef 


GraphDef 


GraphDef 


GraphDef 


图 14-3 


DirectSession::Run 


图 14-4 


DirectSession::Extend 
DirectSession::ExtendLocked 


DirectSession:: . 
MaybelInitializeExecutionState 


GraphDef 


ConvertGraphDef ToGraph 
GraphOptimizer::Optimize 


> Status 


> Status 


> Status 


SimpleGraphExecutionStateOptions 
impleGraphExecutionState:: 
akeForBaseGraph 


> std::unique ptr<SimpleGraphExecutionState> 


BuildGraphOptions 


impleGraphbxecutionState:: 
InitBaseGraph 


> Graph 


SimpleGraphExecutionState::Extend| > std::unique_ ptr<SimpleGraphExecutionState> 


BuildGraphOptions 


SimpleGraphExecutionState:: 
InitBaseGraph 


会 话 构造 时 涉及 数据 流 图 创建 的 主要 流程 


> Graph 


> std::vector<Tensor> 


gtl::Array Slice<string> inputs, gtl::Array Slice<string> outputs, gtl::ArraySlice<string> target_nodes 


DirectSession:: GetOrCreateExecutors| > ExecutorsAndKeys 


BuildGraphOptions 


DirectSession::CreateGraphs 


GraphDef, BuildGraphOptions, SimpleGraphExecutionStateOptions 
SimpleGraphExecutionState:: 


> std::unordered map <string, std::unique_ptr<Graph>> 


MakeForPrunedGraph ?> SimpleClientGraph 


BuildGraphOptions 


SimpleGraphExecutionState: :InitBaseGraph 


BuildGraphOptions 


SimpleGraphExecutionState:: BuildGraph 


> Graph 


> SimpleClientGraph 


> std::unordered map<string, GraphDef > 


> Graph 


> Graph 


会 话 运行 时 涉及 数据 流 图 创建 的 主要 流程 


数据 流 图 创建 过 程 涉及 的 主要 抽象 是 SimpleclientGraph 结构 及 其 状态 管理 相关 类 型 ， 
14-5 给 出 了 它们 的 UML 类 图 。 simpleclientGraph 结构 定义 在 tensorflow/core/common runtime/ 
simple_graph_execution_state.h 文件 中 , 它 封 装 了 与 会 话 的 一 次 运行 相关 联 的 子 图 及 其 自 定义 函数 
库 。 会话 运行 时 仅 保 存 并 处 理 必要 的 子 图 ， 能够 降低 内 存 占用 和 通信 开销 。BuildGraphoptions 
结构 定义 了 子 图 的 输入 、 输 出 张 量 和 目标 节点 ， 以 及 优化 和 调试 选项 ， 用 作 提 取 子 图 的 参数 。 
SimpleGraphExecutionstate 类 记录 了 数据 流 图 节点 在 设备 上 的 放置 状态 ， 它 提供 按 需 创建 
SimpleClientGraph 实例 的 方法 。 其 辅助 数据 结构 simpleGraphExecutionstateOptions 用 于 
保存 设备 列表 和 节点 一 一 设备 映射 关系 。tensorflow/core/graph/graph partition.h 文件 定义 的 
PartitionOptions 结构 则 用 于 保存 图 切 分 过 程 的 选项 ， 它 管理 着 图 切 分 逻辑 所 需 的 外 部 函数 指 
针 ， 并 提供 控制 流 、 计 时 器 等 元 素 的 开关 。 
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+flib def: std:unique_ptr<FunctionLibraryDefinition> + optimizer_options: OptimizerOptions 
+ graph: Graph +infer shapes: bool 

+place pruned graph: bool 

+rewrite options: RewriterConfig 


—stateful_placements_ :std::unordered map<string, string> 
—original_ graph def: GraphDef 
—device_set :DeviceSet* +feed endpoints:std::vector<string> 
—session options : SessionOptions* +fetch endpoints:std::vector<string> 
A —flib def :std:unique_ptr<FunctionLibraryDefinition>| +target nodes:std::vector<string> 
—graph : Graph* +use_function convention: bool 


+ MakeF orBaseGraph B= = = 
+ MakeForPrunedGraph 


+Extend 
和 
BuldGraph +node to_loc:NodeToLocFunc 
+new_name:NewNameFunc 
+control flow_added: bool 
+need to record start times: bool 


SimpleGraphExecutionStateOptions 
+device_ set: DeviceSet* 


+ session options:SessionOptions* 
+Sstateful_placements: std::unordered map<string, string> 


FunctionCallFrame 


—args_: gtl::Inlined Vector<Tensor, 4> 
—rets :gtl::InlinedVector<Retval,4> 


TSetAres 
+env: Env* +GetRetvals 


+target : string 
+config :ConfigProto +val: Tensor +GetArg 


| | | | liseRkewval 
图 14-5 数据 流 图 创建 过 程 相关 抽象 的 UML 类 图 ( 只 列 出 关键 成 员 变量 与 方法 ) 


在 数据 流 图 创建 的 过 程 中 ， 作 为 会 话 级 全 局 参数 使 用 的 数据 结构 包括 sessionoptions 和 
Graphoptions 等 。 


口 Session0ptions 结构 保存 着 应 用 层 API 传 人 的 会 话 构造 参数 ， 其 中 ConfigProto 成 员 定 
义 于 tensorflow/core/protobufconfig.proto 文件 ， 它 包括 若干 与 数据 流 图 创建 、 优 化 和 运行 
过 程 相关 的 选项 类 型 。 
口 Graphoptions 类 是 configProto 类 的 成 员 ， 用 于 在 会 话 整 体 层面 配置 数据 流 图 的 属性 。 
其 主要 成 员 包 括 子 图 提取 、 形 状 推导 等 特性 的 开关 ， 图 优化 器 、 图 重 写 逻 辑 等 子 过 程 的 
选项 等 。 
子 图 提取 过 程 还 会 涉及 TensorFlow 的 函数 调用 上 下 文 管理 抽象 FunctionCallFrame。, 该 
类 模拟 了 编程 语言 运行 时 的 函数 调用 栈 帧 (frame in call stack ) 机 制 ， 是 一 种 在 用 户 代 码 中 可 访 
问 的 函数 调用 上 下 文 。 它 包含 基于 Tensor 数据 类 型 的 函数 输入 参数 、 返 回 值 字段 及 其 访问 接口 ， 
并 将 返回 值 封装 于 辅助 结构 Retval 中 。 相 比 编程 语言 原生 的 函数 调用 栈 帧 ,FunctionCal1Frame 
抽象 的 主要 优势 在 于 其 作用 域 和 生命 周期 的 可 控 性 。 


+has val: bool +ConsumeRetvals 


tt 


计 


14.2.2 ”全 图 构造 
全 图 构造 过 程 在 会 话 初次 构造 或 后 续 扩 展 时 执行 , 其 目的 是 基于 应 用 代码 中 逐次 传人 的 、 仅 
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包含 基本 拓扑 信息 的 GraphDef 格式 数据 流 图 ， 构 造 同 会 话 生 命 周期 关联 的 、 具 备 计算 能 力 的 
Graph 格式 的 完整 数据 流 图 。 

会 话 初次 构造 或 后 续 扩 展 时 ， 应 用 代码 中 定义 的 数据 流 图 以 GraphDef 格式 ， 经 由 CAPI 传 
递 到 Directsession 对 象 的 Extend 方法 ,继而 进入 对 图 加 锁 保 护 的 ExtendLocked 方法 。 对 于 
会 话 初次 构造 、 图 状态 对 象 尚未 初始 化 的 情况 , ExtendLocked 方法 首先 调用 MaybeInitialize- 
Executionstate 方法 , 创建 并 初始 化 会 话 持 有 的 SimpleGraphExecutionstate 成 员 , 在 该 成 员 
中 保存 会 话 关联 的 数据 流 图 和 设备 等 信息 。MaybeInitializeExecutionstate 方法 内 部 构造 
SimpleGraphExecutionstate 对 象 并 创建 初始 的 Graph 对 象 是 通过 调用 SimpleGraphExecutionState 
类 的 MakeForBaseGraph 静态 方法 实现 的 。 该 静态 方法 内 部 调用 新 状态 对 象 的 InitBaseGraph 
方法 , 实现 图 的 格式 转换 及 节点 向 设备 的 放置 (placement )。 节 点 放置 机 制 实现 于 simplePlacer 
类 , 该 类 提供 一 种 基于 并 查 集 联合 -查找 ( union-find ) 算法 的 简单 节点 放置 策略 ， 并 具有 GPU 优 
先 的 启发 式 规则 。 

对 于 图 状态 对 象 已 经 初始 化 、 会 话 中 的 数据 流 图 需要 扩展 的 情况 ，ExtendLocked 方法 会 调 
用 simpleGraphExecutionstate 成 员 的 Extend 方法 ， 实 现 基于 新 加 入 数据 流 图 的 状态 转移 ， 
并 将 新 的 状态 对 象 赋予 会 话 。SimpleGraphExecutionstate: :Extend 方法 实现 状态 转移 的 主要 
步骤 包括 : 

(1) 构建 新 的 临时 GraphDef 对 象 ; 

(2) 将 原 图 中 的 节点 加 入 临时 图 ; 

(3) 基于 Protocol Buffers 的 MergeFrom 机 制 ， 将 新 图 中 的 节点 加 入 临时 图 ; 

(4) 计算 生成 临时 图 的 versionDef 字段 ; 


(5) 将 新 图 的 自 定义 函数 库 等 字段 赋予 临时 图 ; 
(6) 基于 临时 图 , 构造 新 的 SimpleGraphExecutionstate 对 象 , 覆盖 会 话 传人 的 原状 态 对 象 ; 


(7) 调用 simpleGraphExecutionstate: :InitBaseGraph 方法 , 基于 新 状态 对 象 中 的 GraphDef 
格式 全 图 生成 Graph 格式 全 图 ， 并 完成 节点 向 设备 的 放置 。 


14.2.3 子 图 提取 


子 图 提取 过 程 在 会 话 运行 时 执行 , 其 目的 是 构造 关联 到 特定 的 一 次 会 话 运行 过 程 、 只 包含 特 
定 计算 任务 相关 节点 的 Graph 格式 子 图 。 

会 话 运行 时 ，DirectSsession: :Run 方法 从 C API 得 到 本 次 运行 涉及 的 输入 张 量 集合 以 及 输出 
和 目标 节点 名 称 向 量 , 然后 将 这 些 参 数 传 人 GetOrCreateExecutors 方法 。GetOrCreateExecutors 
方法 检查 参数 对 应 的 、 用 于 管理 执行 器 的 ExecutorsAndKeys 对 象 是 否 已 经 存在 ， 如 果 存 在 ， 则 
直接 返回 。 和 否则 ， 将 这 些 参数 封装 到 BuildGraphoptions 结构 ， 传 递 给 CreateGraphs 方法 ， 
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以 便 创 建 子 图 的 Graph 对 象 。 读者 可 能 已 经 注意 到 ,CreateGraphs 方法 名 称 中 的 Graphs 一 词 为 
复数 ， 其 输出 参数 outputs 是 Graph 对 象 指针 的 std: :unordered_map 容器 。 这 是 因为 图 切 分 
过 程 也 将 由 CreateGraphs 方法 调用 ,该 方法 最 终 返回 的 容器 包含 了 已 被 切 分 到 不 同 设备 上 的 局 
部 数据 流 图 对 应 的 Graph 对 象 集合 。 

CreateGraphs 方法 检查 会 话 配 置 的 Graphoptions: :place_pruned_graph 字段 是 否 要 求 裁剪 生 
成 只 包含 待 运行 节点 的 子 图 。 如 果 是 ， 则 调用 simpleGraphExecutionState: :MakeForPrunedGraph 
静态 方法 。MakeForPrunedGraph 方法 首先 创建 全 图 SimpleGraphExecutionstate 对 象 的 副本 ， 
然后 依次 调用 副本 的 InitBaseGraph 和 BuildGraph 方法 ， 生 成 裁剪 过 的 子 图 ， 并 将 其 封装 到 
SimpleClientGraph 对 象 ， 返 回 给 会 话 。 图 的 裁剪 逻辑 是 在 SimpleGraphExecutionState- 
: :InitBaseGraph 方法 内 部 调用 的 subgraph: :RewriteGraphForExecution 国 数 中 实现 的 。 该 
函数 以 BuildGraphoptions 结构 的 成 员 为 输入 参数 ， 在 Graph 对 象 上 执行 原 地 裁剪 。 如 果 会 话 配 
置 不 要 求 裁剪 全 图 生成 子 图 ,那么 CreateGraphs 方法 将 直接 调用 全 图 simpleGraphExecutionstate 
对 象 的 BuildGraph 方法 ， 生 成 对 应 的 simpleCclientGraph 对 象 并 返回 给 会 话 。 


为 了 确保 子 图 可 被 独立 执行 , 子 图 提取 过 程 还 需要 为 子 图 添加 输入 数据 填充 与 输出 数据 获取 
操作 。13.2.1 节 已 经 介绍 过 一 种 可 行 的 机 制 ， 即 通过 搬入 sendop 和 Recvop， 使 用 基于 会 合 点 的 
进程 内 通信 实现 数据 传输 。 除 此 之 外 ，TensorFlow 还 提供 一 种 基于 FunctionCallFrame 对 象 的 
数据 传输 优化 机 制 。 这 种 机 制 的 开关 是 BuildGraphoptions 结构 的 use_function_convention 
字段 。 当 它 开启 时 ，subgraph: :RewriteGraphForExecution 函数 级 联 调用 的 FeedInputs 和 
Fetchoutputs 函数 会 在 子 图 中 插入 Argop 和 Retvalop, 而 非 通信 操作 。 这 两 种 操作 节点 能 够 以 
更 低 的 内 存 访问 开销 实现 输入 数据 填充 与 输出 数据 获取 。 


Ml 


14.2.4 图 切 分 


图 切 分 是 指 将 一 幅 子 图 按照 其 操作 节点 放置 的 设备 , 切 分 为 若干 局 部 数据 流 图 的 过 程 。 切 分 
生成 的 每 幅 局 部 图 仅 在 一 个 设备 上 运行 ， 以 便 TensorFlow 核心 有 效 调 度 图 上 操作 的 执行 。 通 信 
操作 节点 (Sendop、Recvop ) 将 被 插入 局 部 图 ， 以 确保 执行 子 图 的 逻辑 语义 同 切 分 之 前 一 致 。 

图 切 分 过 程 由 定义 在 tensorflow/core/graph/graph_partition.cc 文件 中 的 Partition 函数 完成 。 
该 函数 的 输入 参数 包括 Graph 格式 的 子 图 及 Partition0ptions 类 型 的 切 分 选项 ， 输 出 参数 是 
GraphDef 格式 的 局 部 图 集合 。 CreateGraphs 方法 在 完成 子 图 提取 之 后 , 会 构建 一 个 Partitionoptions 
对 象 , 并 初始 化 其 成 员 变 量 , 然后 调用 Partition 也 数 实施 图 切 分 。 在 Partitionoptions 成 员 
中 ， 比 较 重 要 的 是 函数 对 象 node_to_loc 和 new_name。node_to_loc 指向 的 函数 用 于 获取 节点 
到 设备 的 映射 信息 ， 当 前 的 实现 直接 读 取 Node 对 象 的 assigned_device_name 字段 ， 该 字段 是 
由 SimplePlacer 类 在 图 构造 时 赋值 的 。new_name 指向 的 函数 用 于 生成 局 部 图 中 的 新 节点 名 称 ， 
当前 的 实现 使 用 原 节点 名 称 追 加 数字 后 组 的 格式 。 

Partition 函数 首先 调用 AddControlFlow 函数 ， 在 数据 流 图 中 添加 控制 流 。 控 制 流 用 于 确 
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保 跨 设备 执行 数据 流 图 时 ,调度 操作 的 时 序 正确 性 。 然 后 ,调用 BuildMemoryDeviceInfo 函数 ， 
在 GraphInfo 结构 中 记录 图 中 每 个 节点 的 设备 与 内 存 类 型 信息 ， 这 些 信息 将 作为 实施 图 切 分 的 参 
考 依据 。 接 下 来 ，Partition 函数 遍历 图 中 所 有 节点 ,执行 图 切 分 算法 。 图 切 分 算法 会 将 每 个 节点 
加 入 对 应 设备 的 GraphDef 格式 局 部 图 , 并 在 图 中 重 构 必 要 的 连接 边 。 对 于 被 切 分 的 跨 设备 连接 边 ， 
图 切 分 算法 会 为 之 添加 sendop、Recvop 操作 节点 。Partition 消 数 执行 完毕 后 ，CreateGraphs 
方法 循环 调用 ConvertGraphDefToGraph 函数 ， 将 切 分 后 的 局 部 图 逐个 转换 为 Graph 格式 。 


14.2.5 图 优化 


图 优化 是 指 在 数据 流 图 运行 之 前 , 对 图 的 节点 和 边 进行 适当 调整 ,以 便 提升 图 运行 效率 的 过 
程 。TensorFlow 数据 流 图 优化 的 技术 原理 与 执行 过 程 同 计算 机 系统 中 其 他 和 常见 的 图 优化 技术 ( 如 
编译 器 的 语法 树 优化 ) 类 似 。 
CreateGraphs 方法 返回 切 分 过 的 局 部 数据 流 图 集合 后 ,GetorCreateExecutors 方法 会 创建 
用 于 图 优化 的 Graphoptimizer 对 象 ， 然 后 对 每 幅 局 部 图 逐一 执行 Graphoptimizer: :Optimize 
方法 。 该 方法 在 图 上 依次 执行 多 个 优化 函数 ， 包 括 RemoveListArrayConverter (删除 列表 和 数 
组 间 的 转换 操作 节点 )、RemoveDeadNodes ( 删除 具有 无 状态 、 不 可 达 等 特征 的 “ 死 节点 ”)、 
RemoveIdentityNodes ( 删除 与 源 和 目标 同时 直接 相连 的 Identity 操作 节点 )、ConstantFold 
( 常量 折 辣 )、0ptimizeCSE (公共 子 表 达 式 消除 ) 和 ExpandInlineFunctions ( 内 联 函 数 展开 ) 
等 。 这 里 简要 介绍 常量 折 共 和 公共 子 表达 式 消除 。 
口 常量 折 又 是 指 对 于 只 依赖 于 常量 输入 的 计算 节点 ， 可 以 在 图 创建 过 程 中 直接 计算 结果 ， 
以 包含 结果 的 常量 节点 取代 原 有 计算 子 图 ， 从 而 避免 图 运行 时 反复 执行 同样 的 计算 。 常 
量 折 和 县 的 实现 位 于 tensorflow/core/common runtime/constant folding.cc 文件 ， 主 要 包含 可 
折 和 县 节点 发 现 、 常 量 图 提取 、 和 常量 图 计算 、 节 点 替换 等 过 程 。 
口 公共 子 表达 式 消除 是 指 寻 找 图 的 拓扑 中 是 否 存在 若干 相同 的 子 结构 ， 当 某 种 子 结构 使 用 
两 次 以 上 时 ， 后 续 使 用 的 子 结构 无 须 重 新 计算 ， 而 可 以 直接 引用 第 一 次 计算 的 结果 。 公 
共 子 表达 式 消除 的 实现 位 于 tensorflow/core/graph/optimizer_cse.cc 文件 ， 其 技术 方案 参考 
了 编译 器 领域 经 典 的 全 局 值 编号 (Global Value Numbering ) 算法 。 


14.3 单机 会 话 运行 


TensorFlow 的 核心 业务 逻辑 是 数据 流 图 计算 ,承载 这 一 逻辑 的 运行 时 机 制 是 会 话 的 运行 。 
会 话 运行 过 程 读 入 数据 流 图 的 待 执 行 子 图 以 及 必要 的 输入 张 量 , 依据 图 中 定义 的 依赖 关系 ， 将 
每 个 节点 对 应 的 操作 核 函 数 有 序 地 加 载 到 各 个 计算 设备 上 并 发 执行 , 并 将 计算 结果 作为 后 续 节 
点 的 输入 或 子 图 的 输出 。 会 话 的 生命 周期 最 终 完成 子 图 上 定义 的 所 有 计算 语义 ,将 输出 结果 以 
张 量 形式 返回 给 创建 会 话 的 应 用 程序 。 本 节 介 绍 TensorFlow 的 单机 运行 模式 下 , 会 话 运 行 机 制 
的 设计 与 实现 。 
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14.3.1 流程 与 抽象 


14-6 给 出 了 单机 运行 模式 下 ， 作 为 核心 抽象 的 Directsession 类 在 会 话 运行 时 的 主要 工 
作 流 程 。 会 话 运行 的 入 口 方法 是 DirectSession: :Run， 其 签名 为 Status DirectSession: :Run 


(const RunOptions& run_options,const NamedTensorList& inputs, const std: :vector<string>& 


output names,const std::vector<string>& target nodes,std::vector<Tensor>* outputs, 
RunMetadata* run_metadata)。 主 要 输入 参数 inputs、output_names、target_nodes 分 别 是 
本 次 运行 涉及 的 输入 张 量 集合 以 及 输出 和 目标 节点 名 称 向 量 。 主 要 输出 参数 outputs 是 本 次 运行 
生成 的 张 量 集合 。Runoptions 和 RunMetadata 参数 是 由 Protocol Buffers 文件 定义 的 、 通 过 应 用 
代码 传人 的 会 话 运行 配置 项 和 输出 元 信息 。Directsession: :Run 内 部 包含 执行 器 获取 、 输 入 数 
据 填 充 ( feed )、 图 运行 、 输 出 数据 获取 ( fetch ) 和 张 量 保存 等 5 个 主要 步骤 。 其 中 ， 图 运行 是 
会 话 运行 的 核心 步骤 。 


DirectSession:GetOrCreateExecutors 
DirectSession':CreateGraphs 


NewLocalExecutor DirectSession::ResourceHandleToInputTensor 
GetRendezvousKe FunctionCallFrame::SetArgs 


| DirectSession::SendInputs 7 
Rendezvous: :ParseKe 
1 IntraProcessRendezvous::Send 


ThreadPool: 
ExecutorState::Process 
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ExecutorImplL:RunAsync ExecutorState: :PrepareInputs, 
ExecutorState: .RunAsync Device: :ComputeAsync/ Device::Compute 
ExecutorState: :ScheduleRead. ExecutorState::ProcessOutputs 


Device: :FillContextMap OpKernel::ComputeAsync/OpKernel::Compute 
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pp ， 
格 ， 
Rendezvous: ParseKe \ ExecutorState: :ScheduleRead. 
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ExecutorState: :PropagateOQutputs 


TensorStore::SaveTensors 
SessionState::AddTensor 


图 14-6 ”单机 会 话 运行 的 主要 流程 


为 了 有 效 组 织 和 调度 会 话 运行 过 程 ，TensorFlow 提供 了 一 组 会 话 执行 器 和 状态 管理 抽象 图 
14-7 给 出 了 单机 会 话 运行 过 程 相 关 抽象 的 UML 类 图 。Directsession 类 已 在 之 前 章节 中 多 次 提 
及 ， 它 是 单机 运行 模式 下 的 应 用 层 会 话 概念 在 C++ 核心 层 的 实现 载体 ， 其 对 象 生命 周期 与 会 话 
一 致 。 它 的 主要 成 员 变 量 包括 会 话 关联 的 设备 指针 、 完 整数 据 流 图 、 执 行 器 和 状态 管理 对 象 ， 以 
及 用 于 调度 执行 辅助 对 象 方法 的 线程 池 指 针 等 .DirectSsession 类 面向 CAPI 提供 的 主要 公开 方 
法 包括 会 话 的 包 建 (create )、 扩展 〈Extend )、 运 行 (Run )、 部 分 运行 (PRun ) 及 关闭 (Close )， 
私有 方法 主要 服务 于 图 创建 和 会 话 运行 过 程 。 
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—devices_: std::vector<Device*> +status : Status 

—graph_def_: GraphDef +rendez : IntraProcessRendezvous* 

一 thread_pools_: std::vector<thread::ThreadPool*> 十 executors_done : Notification 

一 executors_: std::unordered_ map<string, std::shared_ptr<ExecutorsAndKeys>> 十 pending_inputs : std::unordered_set<string> 

一 session state_ : SessionState +pending_outputs : std::unordered_set<string> 

—execution state :std::unique ptr<SimpleGraphExecutionState> +tensor Store : TensorStore 

FCreate | 

十 Extend 

十 Run 

十 PRun 

+Close 

一 GetOrCreateExecutors +step_count : std::atomic int fast64_t 

一 CreateGraphs 二 graph : std::unique_ptr<Graph> 

一 SendInputs / SendPRunInputs +name to node : NameNodeMap 

一 RecvOutputs /RecvPRunOutputs +flib_def : std::unique_ptr<FunctionLibrary Definition> 

— SchedClosure +items : std::vector<PerPartitionExecutorsAndLib> 
+input_keys : std::unordered_ map<string, string> 


output Keys sd noerer ap sing, sre> 
十 device : Device* 

+GetTensor 十 function_library : FunctionLibraryRuntime* 

+AddTensor 二 create_kermel: std::function 


十 十 delete _ kernel: std::functi 
neo Ee DirectSession::PerPartitionExecutorsAndLib 
+GetNewld 


+ graph : Graph* 
A + flib : std::unique_ptr<FunctionLibraryRuntime> 
ExecutorState 十 executor : std::unique ptr<Executor> 
—device_context map_: DeviceContextMap | 


—step_ id_ :int64 es 
—rendezvous_ : Rendezvous* 
—session state_: SessionState* + Run 
—tensor_store_ : TensorStore* 八 
—call frame_: FunctionCallFrame* 
—impl_: ExecutorImpl* +step_id : int64 
+rendezvous : Rendezvous* 


—runner :Executor::Args::.Runner [| : 
TRunAsyne +call frame: FunctionCallFrame* 


—ScheduleReady + RunAsyne +cancellation manager: Cancellation Manager* 


—PrepareInputs uta +session state : SessionState* 
—ProcessOutputs + SetAllocAttrs +tensor_store : TensorStore* 
—Process +runner : Runner 


—Finish 


图 14-7 ”单机 会 话 运行 过 程 中 相关 抽象 的 UML 类 图 ( 只 列 出 关键 成 员 变 量 与 方法 ) 


DirectSession 内 骨 的 Runstate 结构 用 于 记录 会 话 的 一 次 特定 运行 相关 的 信息 。 其 主要 字 
段 包括 此 次 会 话 运行 的 状态 、 进 程 内 通信 所 需 的 会 合 点 对 象 指针 、 待 运行 的 输入 和 输出 节点 名 称 
集合 ， 以 及 用 于 同步 等 待 的 Notification 对 象 等 。 内 组 结 构 ExecutorsAndKeys 用 于 记录 会 话 
运行 关联 的 数据 流 图 执行 器 对 象 集合 、 输 入 和 输出 张 量 对 应 的 会 合 点 键 , 以 及 节点 名 称 到 节点 对 
象 的 映射 等 信息 ， 以 便 管理 数据 流 图 与 执行 器 、 会 合 点 等 对 象 之 间 的 关系 。ExecutorsAndKeys 
对 象 可 以 在 同一 会 话 的 多 次 具有 相同 输入 、 输 出 的 运行 之 间 共 享 ， 从 而 节约 计算 和 内 存 开销 。 内 
讽 结 构 PerPartitionExecutorsAndLib 作为 ExecutorsAndKeys 结构 中 items 向 量 的 元 素 ， 用 
于 记录 切 分 后 的 每 幅 局 部 图 与 执行 器 对 象 的 映射 关系 , 以 便 在 会 话 运行 时 调用 合适 的 执行 器 执行 
局 部 图 。DirectSession 的 成 员 类 型 sessionstate 是 一 种 张 量 管理 类 ， 用 于 以 键 值 对 方式 存 取 
会 话 涉及 的 Tensor 对 象 集合 。 其 辅助 工具 类 TensorSstore 用 于 在 Sessionstate 对 象 中 批量 保 
存 会 话 单 次 运行 生成 的 输出 张 量 。 
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Executor 类 是 会 话 执行 器 的 抽象 , 它 提供 异步 执行 局 部 图 的 RunAsync 虚 方法 及 其 同步 封装 
版 本 Run 方法 。Executor 类 的 具体 功能 实现 位 于 其 子 类 ExecutorImpl 中 。 内 髓 结构 Args 用 于 
为 RunAsync 方法 提供 每 次 独立 运行 的 参数 ,其 主要 字段 包括 执行 步 ID 、 会 合 点 对 象 指针 、 用 于 
管理 函数 调用 上 下 文 的 FunctionCallFrame 对 和 象 指针 ,以 及 用 于 张 量 持久 化 存储 的 Tensorstore 
对 象 指针 等 。 该 结构 中 还 定义 了 两 个 类 型 别名 : 用 于 表示 待 执行 函数 对 象 的 Closure 类 型 
(std::function<void()> )， 以 及 用 于 为 执行 锅 实 现 困 数 调度 功能 、 能 够 执行 Closure 对 象 的 
Runner 类 型 ( std: :function<void(Closure)> )。Args 结构 的 runner 字段 为 Executor 对 象 
赋予 了 在 特定 设备 上 调度 执行 函数 的 能 力 。 为 了 方便 创建 与 特定 设备 关联 的 Executor 对 象 ， 
TensorFlow 提供 了 LocalExecutorParams 辅助 结构 。 它 记录 了 Executor 对 象 所 需 的 设备 指针 、 
自 定 义 函 数 库 ， 以 及 用 于 创建 和 删除 核 函 数 的 函数 对 象 等 参数 。 

Executorstate 类 用 于 维护 执行 器 的 运行 时 状态 ， 同 时 辅助 ExecutorImp1l 类 实现 部 分 业务 
轩 辑 。ExecutorSstate 类 以 Executor::Args 对 象 作为 构造 函数 的 参数 ， 在 构造 时 保存 与 
Executor:: Args 类 似 的 成 员 变 量 。ExecutorState 对 象 在 ExecutorImp1: :RunAsync 方法 调用 
时 构造 ， 它 提供 的 RunAsync 公开 方法 被 用 做 ExecutorImp1: :RunAsync 方法 的 内 部 实现 。 每 个 
ExecutorSstate 对 象 的 生命 周期 关联 到 ExecutorImpl: :RunAsync 方法 的 一 次 调用 ,由 此 可 以 看 
出 ，ExecutorState 类 与 DirectSession::RunState、DirectSession: :ExecutorsAndKeys 结 
构 的 区 别 在 于 : 后 两 者 维护 的 是 一 次 会 话 运 行 所 提取 的 子 图 及 其 相关 对 象 的 状态 ， 而 
Executorstate 维护 的 是 子 图 切 分 之 后 、 关 联 到 特定 设备 的 局 部 图 的 执行 状态 。 

为 了 更 加 直观 地 说 明 上 述 概念 的 设计 目标 与 应 用 场景 ， 表 14-1 给 出 了 单机 会 话 运行 所 涉及 
的 过 程 、 抽 象 及 数据 流 图 类 型 的 对 应 关系 。 


表 14-1 单机 会 话 运行 涉及 的 过 程 、 抽 象 及 数据 流 图 类 型 对 应 关系 


过 程 数据 流 图 类 型 主体 抽象 状态 抽象 
会 话 生 命 周 期 整体 全 图 DirectSession Sessionstate 
会 话 单 次 运行 按 计 算 语义 提取 的 子 图 ExecutorsAndkKeys RunState 
会 话 在 单个 设备 上 的 执行 按 设备 切 分 的 局 部 图 Executor Executorstate 


14.3.2 ”执行 器 获取 


执行 器 获取 是 指 创 建 或 取得 用 于 执行 数据 流 图 的 Executor 对 象 集合 的 过 程 ， 其 入口 方法 是 
DirectSession::GetOrCreateExecutors。 该 方法 的 输入 参数 给 定 了 本 次 会 话 运行 涉及 的 输入 、 
输出 张 量 名 称 和 目标 节点 名 称 , 以 及 用 于 调度 执行 辅助 对 象 方 法 的 线程 池 指 针 。 主 要 输出 参数 是 
封装 了 Executor 对 象 集合 等 成 员 的 ExecutorsAndKeys 对 象 指针 。 

为 了 节约 执行 器 的 创建 开销 , DirectSsession 类 提供 了 ExecutorsAndKeys 对 象 缓存 和 复 用 
机 制 。DirectSsession 类 的 executors 成 员 变 量 中 保存 了 一 组 缓存 的 ExecutorsAndKeys 对 象 
集合 。 正 如 GetOrCreateExecutors 方法 名 称 所 述 ,对 于 同一 会 话 的 多 次 具有 相同 输入 、 输 出 参 
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数 的 运行 ， 只 在 第 一 次 运行 时 创建 ExecutorsAndKeys 对 象 ， 此 后 直接 返回 缓存 的 对 象 指针 。 对 
于 需要 创建 执行 器 的 情况 ，GetorCreateExecutors 方法 首先 调用 CreateGraphs 方法 ， 对 会 话 
关联 的 数据 流 图 进行 待 执行 子 图 提取 及 面向 设备 的 局 部 图 切 分 (如 14.2 节 所 述 )。 然 后 ， 为 每 幅 
局 部 图 准备 一 个 带 有 其 设备 描述 信息 及 核 函数 管理 函数 的 LocalExecutorParams 对 象 。 基 于 这 
个 对 象 ， 调 用 NewLocalExecutor 函数 ， 创 建 执 行 局 部 图 所 需 的 Executor 对 象 ， 并 将 其 加 入 
ExecutorsAndKeys 对 象 的 items 向 量 中 。 最 后 ， 遍 历 每 个 输入 、 和 输出 张 量 名 称 ， 调 用 
GetRendezvousKey 函数 ， 为 它们 设置 进程 内 通信 时 所 需 的 会 合 点 键 (如 13.2 节 所 述 )。 


这 里 简要 介绍 NewLocalExecutor 函数 的 内 部 实现 。 该 函数 基于 局 部 图 对 应 的 LocalExecutorParams 
和 Graph 参数 构造 一 个 ExecutorImpl 对 象 ， 然 后 调用 新 对 象 的 Initialize 方法 对 其 进行 初始 
化 ， 最 后 以 父 类 ( Executor ) 指针 的 形式 返回 新 对 象 。ExecutorImpl 的 构造 函数 完成 成 员 变量 
的 初始 化 。ExecutorImp1: :Initialize 方法 用 于 准备 执行 局 部 图 所 需 的 数据 结构 ， 主 要 包括 每 
个 节点 核 限 数 对 应 的 opKernel 对 象 ， 以 及 ControlFlowInfo、FrameInfo 等 辅助 对 象 。 其 
OpKernel 指针 等 数据 流 图 对 象 的 元 信息 被 复制 并 封装 到 执行 器 的 辅助 类 型 一 一 Graphview 和 
NodeItem 中 ， 作 为 ExecutorImpl 对 象 的 成 员 变 量 。GraphView 和 NodeItenm 成 员 存储 的 信息 看 
似 宛 余 , 但 它们 在 执行 器 对 象 中 以 连续 内 存 缓冲 区 和 位 元 组 等 高 效 的 方式 存储 ,能够 在 运行 时 快 
速 地 访问 ， 从 而 减少 随机 访 存 和 间接 访 存 的 开销 。 


14.3.3 ”输入 数据 填充 


在 获取 执行 器 之 后 ，Directsession: :Run 方法 将 为 待 运行 的 数据 流 图 填充 输入 数据 ( 即 张 
量 )。 通 过 对 子 图 提取 过 程 的 分 析 ， 我 们 已 经 知道 输入 数据 填充 有 两 种 实现 方式 : 基于 Sendop 
和 Recvop， 使 用 会 合 点 机 制 传输 数据 ; 基于 Argop 和 Retvalop， 借助 FunctionCallFrame 对 
象 传输 数据 。 后 者 相 比 前 者 ， 适 用 范围 有 限 ， 但 是 它 能 避免 一 部 分 字符 串 解 析 和 内 存 访问 开销 ， 
因此 具有 更 好 的 性 能 。 

对 于 单机 会 话 ，TensorFlow 1.1 及 更 早 版 本 默认 使 用 会 合 点 方式 ， 而 1.2 版 本 之 后 则 改 用 
FunctionCallFrame 方式 。 昌 然 会 合 点 方式 已 经 在 TensorFlow 1.2 的 单机 会 话 Run 方法 中 弃 用 ， 
但 是 它 仍然 应 用 于 PRun 方法 及 分 布 式 会 话 , 因此 有 必要 了 解 。 这 里 分 别 对 这 两 种 方式 进行 介绍 。 

口 会 合 点 方式 : Directsession: :Run 方法 首先 创建 用 于 记录 本 次 会 话 运行 状态 的 RunState 

对 象 和 进程 内 通信 所 需 的 会 合 点 对 象 ， 随 后 调用 DirectSsession: :SendInputs 方 法 ， 为 
待 执行 的 数据 流 图 填充 输入 张 量 (在 1.2 版 本 以 后 ， 该 方法 更 名 为 SendPRunInputs ) 。 

Directsession: :SendInputs 方法 的 输入 参数 包括 来 自 Directsession: :Run 方法 参数 的 
inputs 向 量 ， 以 及 本 次 会 话 运行 所 需 的 ExecutorsAndKeys 和 IntraProcessRendezvous 
对 象 指针 。 该 方法 的 逻辑 相对 简单 : 遍历 inputs 中 的 所 有 输入 张 量 ， 根 据 其 名 称 在 
ExecutorsAndKeys 对 象 中 找到 对 应 的 会 合 点 键 。 对 于 每 个 会 合 点 键 ， 调 用 Rendezvous : : 
ParseKey 方法 ,将 其 转换 为 Rendezvous : :ParsedKey 结构 保存 。 然 后 以 ParsedKkey 对 象 
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作为 数据 标识 、 以 输入 张 量 作为 待 发 送 数据 ， 调 用 IntraProcessRendezvous: :Send 方 法 
发 送 张 量 。 之 前 子 图 提取 时 所 插入 的 Recvop 将 在 图 运行 过 程 中 调用 会 合 点 的 RecvAsync 
方法 ， 实 现 张 量 接收 。 

口 FunctionCallFrame 方式 : Directsession: :Run 方法 首先 创建 用 于 记录 本 次 会 话 运行 
状态 的 Runstate 对 象 ， 以 及 代表 函数 调用 上 下 文 的 FunctionCallFrame 对 象 ; 然后 遍 
历来 自 DirectSession: :Run 方法 参数 的 inputs 向 量 ， 通 过 DirectSession: :Resource- 
HandleToInputTensor 方法 找到 每 个 资源 句柄 对 应 的 输入 张 量 ; 接 下 来 调用 Function- 
CallFrame: :SetArgs 方法 ， 将 输入 张 量 集合 作为 函数 上 下 文 参数 赋予 FunctionCall- 
Frame 对 象 。 之 前 子 图 提取 时 所 插入 的 Argop 将 在 图 运行 过 程 中 调用 FunctionCall- 
Frame::GetArg 方法 ， 读 人 函数 上 下 文中 的 张 量 ， 实 现 输入 数据 填充 。 


14.3.4 图 运行 

数据 流 图 运行 是 会 话 运行 的 核心 步骤 , 它 是 指 一 组 执行 器 在 各 个 设备 上 依照 数据 流 图 定义 的 
依赖 关系 加 载运 行 图 上 的 操作 节点 核 函 数 ， 对 输入 数据 实施 计算 ,生成 输出 数据 的 过 程 。 这 一 过 
程 允许 多 线程 、 多 设备 的 并 发 执行 ， 以 便 提升 计算 效率 。 图 运行 的 和 人口 方法 是 ExecutorImpl:: 
RunAsync。 在 图 运行 之 前 ， 需 要 进行 必要 的 准备 工作 。 

图 运行 前 的 第 一 项 准备 工作 是 创建 ExecutorBarrier 对 象 ， 该 对 象 用 于 实现 不 同 局 部 图 执 
行 器 对 象 的 障 栅 同步 操作 (barrier ), 从 而 保证 多 线程 并 发 的 图 运行 逻辑 在 所 有 线程 均 完 成 后 才 进 
人 后 续 流 程 。ExecutorBarrier 类 的 实现 原理 如 下 。 

(1) 父 线程 构造 ExecutorBarrier 对 象 时 ， 指 定 参与 障 机 同步 的 子 线程 数量 ， 该 数量 会 保存 
到 一 个 计数 需 变 量 。 

(2) 父 线程 调用 Notification: :WaitForNotification 方法 阻塞 等 待 通知 事件 。 

(3) 各 个 子 线程 到 达 同 步 点 后 ， 互 斥 地 对 共享 对 象 中 的 计数 需 变 量 执行 自 减 操作 。 

(4) 当 某 个 线程 发 现 共享 计数 器 值 自 减 后 变 为 0， 则 认定 自己 是 最 后 一 个 到 达 同 步 点 的 线程 ， 
此 时 需要 调用 Notification: :Notify 方法 ， 通 知 父 线程 结束 等 待 ， 继 续 执 行 。 

DirectSession: :Run 方法 集成 障 栅 同步 操作 的 做 法 如 下 。 

(1) 在 图 运行 逻辑 中 ， 触 发 ExecutorBarrier 计数 器 自 减 的 ExecutorBarrier: :WhenDone 
操作 以 回调 函数 的 方式 传人 ExecutorImp1: :RunAsync 方法 ， 供 子 线程 在 工作 完成 之 后 调用 。 

(2) 用 于 同步 等 待 的 Notification: :WaitForNotification 方法 被 封装 入 DirectSession 
: :WaitForNotification 方法 ， 由 父 线程 在 图 运行 之 后 调用 。 

图 运行 前 的 另 一 项 准备 工作 是 初始 化 Executor: :Args 对 象 。 对 于 会 话 的 同一 次 运行 ,Args 
对 象 在 所 有 Executor 对 象 间 共享 以便 各 个 执行 髓 共享 会 合 点 、 张 量 缓 存 等 资源 。Runner 类 型 
的 runner 字段 作为 执行 函数 调度 功能 的 国 数 对 象 , 使 用 封装 了 DirectSsession: :SchedClosure 
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方法 的 匿名 函数 进行 初始 化 。SchedClosure 方法 将 传人 的 函数 对 象 调度 到 Directsession 管理 
的 线程 池内 执行 。 


完成 必要 的 准备 之 后 ，Directsession: :Run 方法 将 遍历 ExecutorsAndKeys 对 象 保存 的 所 
有 Executor 对 象 ， 为 每 幅 局 部 图 分 别 调用 图 运行 方法 ExecutorImp1: :RunAsync。 该 方法 为 当前 
Executor 创建 一 个 Executorstate 对 象 ， 用 于 维护 本 次 运行 状态 。 继 而 调用 ExecutorSstate 
: :RunAsync 方法 ， 启 动 图 运行 。ExecutorState: :RunAsync 方法 首先 调用 局 部 图 对 应 设备 的 
Device: :FillContextMap 方法 ， 初 始 化 Executorstate 内 部 的 设备 上 下 文 (DeviceContext ) 
对 象 集合 。 对 于 CPU 设备 ,初始 化 的 实现 为 空 ; 对 于 GPU 设备 ,初始 化 工作 用 于 建立 图 上 节点 
到 GPU 流 ID 的 映射 。 接 下 来 ,ExecutorSstate::RunAsync 方 法 将 图 上 就 绪 的 操作 节点 加 入 ready 
向 量 ， 并 调用 ExecutorState: :ScheduleReady 方法 对 这 些 操作 实施 调度 。SscheduleReady 方 
法 遍历 就 绪 节 点 向 量 ， 依 据 每 个 节点 对 应 的 操作 核 函 数 的 kernel_is_expensive 属性 执行 不 同 
的 逻辑 : 对 于 标记 为 开销 较 大 的 节点 ， 使 用 从 Executor: :Args 对 象 传 人 的 Runner 函数 调用 
Executorstate: :Process 方法 ,使 得 操作 被 加 载 到 线程 池 的 空闲 线程 上 执行 。 对 于 标记 为 开销 
较 小 的 节点 , 将 其 加 入 作为 参数 传人 的 inline_ready 队列 一 一 这 些 节点 将 在 Executorstate : 
Process 方法 中 以 内 联 方式 在 同一 线程 中 执行 ， 以 节约 线程 分 配 开 销 。 


数据 流 图 节点 操作 在 对 应 设备 上 的 执行 是 由 Executorstate: :Process 方法 发 起 的 。 尽 管 其 
输入 参数 只 包含 一 个 待 执行 节点 ,然而 由 于 内 联 执行 机 制 的 存在 , 该 方法 还 会 执行 相关 的 内 联 节 
点 。Process 方法 内 置 一 个 inline_ready 节点 队列 ， 该 方法 的 参数 给 定 的 待 执 行 节点 作为 首 个 
元 素 加 入 该 队列 。Process 方法 运行 时 ， 遍历 队 列 中 的 节点 ， 依 次 执行 。 一 个 节点 执行 完毕 后 ， 
级 联 调 用 ExecutorState: :NodeDone 和 ExecutorState: :ScheduleReady 方法 ， 在 队列 中 添加 新 
的 内 联 节 点 。 直 到 inline_ready 队列 中 的 节点 全 部 执行 完毕 , 方法 才 会 退出 。 退出 之 前 , Process 


方法 会 调用 ExecutorState: :Finish 方法 ,通过 该 方法 调用 作为 ExecutorState: :RunAsync 参数 
传人 的 回调 函数 ， 从 而 触发 障 栅 同 步 。 


具体 到 特定 操作 节点 的 执行 ，Executorstate: :Process 方法 首先 调用 ExecutorState: : 
PrepareInputs 方法 ， 为 节点 准备 输入 张 量 。 然 后 依据 节点 操作 核 函 数 的 kernel_is_async 
性 ， 调 用 对 应 设备 的 Device: :Compute 或 Device: :ComputeAsync 方法 ， 同 步 或 异步 地 执行 
作 核 函数 提供 的 opKernel: :Compute 或 0pKernel: :ComputeAsync 方法 , 实现 节点 的 计算 逻辑 。 
接 下 来 调用 Executorstate: :ProcessOutputs 方法 ， 对 输出 张 量 加 以 收集 和 人 处理。 最 后 调用 
Executorstate: :PropagateOutputs 方法 ,将 输出 张 量 传递 到 本 节点 对 应 的 目标 节点 。 对 于 异步 
执行 操作 核 函数 的 情况 ，Processoutputs 和 PropagateOutputs 方法 是 在 Device: :ComputeAsync 
方法 的 完成 回调 函数 中 调用 的 。 

至 此 , 定义 在 应 用 程序 代码 中 的 、 高 度 抽 象 数据 流 图 经 过 一 系列 分 解 和 重组 ,落实 到 了 具体 
的 计算 设备 。 


福 强 
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14.3.5 ”输出 数据 获取 


所 有 执行 器 到 达 障 栅 同 步 点 之 后 ， 回 调 函 数 将 对 Runstate 对 象 保存 的 会 话 运行 状态 进行 更 

新 ， 随 后 进行 数据 流 图 的 输出 数据 获取 。 输 出 数据 获取 同样 有 会 合 点 和 FunctionCallFrame 两 

种 实现 方式 ， 下 面 分 别 介 绍 。 

口 会 合 点 方式 : 本 方式 的 人口 方法 是 DirectSession: :Recvoutputs (在 1.2 版 本 以 后 ， 该 
方法 更 名 为 RecvPRunOutputs ) 。 其 输入 参数 包括 来 自 DirectSession: :Run 方法 参数 
的 输出 节点 名 称 向 量 ， 以 及 会 话 运行 所 使 用 的 ExecutorsAndKeys 等 对 象 指针 。 输 出 参 
数 是 会 话 运行 生成 的 张 量 集合 ， 它 将 为 Directsession: :Run 方法 的 outputs 参数 提供 
输出 。Directsession: :RecvOutputs 的 逻辑 同 Directsession: :SendInputs 类 似 。 它 
需要 在 ExecutorsAndKeys 对 象 中 找到 输出 张 量 对 应 的 会 合 点 键 ， 并 使 用 Rendezvous : : 
ParseKey 方法 对 键 进 行 解 析 。 然 后 以 解析 后 的 ParsedKey 对 象 作 为 数据 标识 ， 通 过 
IntraProcessRendezvous::Recv 方法 接收 张 量 。 之 所 以 能 够 在 这 里 接收 到 输出 张 量 ， 

是 因为 之 前 子 图 提取 时 所 插入 的 sendop 已 在 图 运行 过 程 中 调用 了 会 合 点 的 Send 方法 ， 
完成 了 张 量 发 送 。 

口 FunctionCallFrame 方式 : 本 方式 由 FunctionCallFrame::ConsumeRetvals 方法 实 
现 。 该 方法 遍历 函数 上 下 文中 的 返回 值 ( 即 输出 张 量 ) ， 将 其 逐个 赋予 临时 向 量 。 
DirectSession: :Run 方法 随后 依据 待 输 出 张 量 的 索引 顺序 ， 将 临时 向 量 中 的 张 量 移动 
到 outputs 参数 指向 的 输出 向 量 ， 完 成 输出 数据 获取 。 之 所 以 能 够 在 函数 上 下 文 的 返回 
值 中 取得 输出 张 量 ， 是 因为 之 前 子 图 提取 时 所 插入 的 Retvalop 已 在 图 运行 过 程 中 调用 
了 FunctionCallFrame: :SetRetval 方法 ， 在 返回 值 中 写 人 了 输出 张 量 。 


14.3.6” 张 量 保 存 


TensorFlow 人 允许 在 会 话 中 对 张 量 进行 缓存 和 复 用 , 这 是 借助 Directsession 类 的 sessionstate 
成 员 和 Runstate 结构 的 TensorStore 成 员 完 成 的 。TensorStore 对 象 的 AddTensor 方法 用 于 
添加 待 缓存 的 张 量 名 称 ， 该 方法 通常 在 GetsessionHandleop 操作 中 调用 。 

单机 会 话 运行 的 最 后 一 个 步 又 是 调用 Tensorstore: :SaveTensors 方法 ,将 本 次 运行 输出 的 
张 量 进行 选择 性 地 保存 。Tensorstore: :SaveTensors 方法 遍历 本 次 运行 的 所 有 输出 节点 名 称 ， 
如 果 其 存在 于 Tensorstore 对 象 已 记录 的 名 称 集合 , 则 调用 sessionstate: :AddTensor 方法 保 
存 对 应 的 张 量 。 同 一 会 话 再 次 运行 时 ， 输 入 数据 填充 过 程 可 以 级 联 调用 DirectSession: : 
ResourceHandleToInputTensor 和 SessionSstate: :GetTensor 方法 ， 取 得 此 前 缓存 的 张 量 。 


14.4 “分 布 式 会 话 运行 


在 TensorFlow 的 分 布 式 运行 模式 下 ， 会 话 的 运行 不 仅 可 以 是 跨 单机 多 设备 的 ， 也 可 以 是 跨 
多 机 的 。 对 于 应 用 开发 者 而 言 ， 分 布 式 应 用 的 运行 除 需 使 用 专门 的 Supervisor、Optimizer 等 抽象 
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外 ,会话 本 身 的 接口 同 单机 运行 模式 保持 兼容 。 因 此 ， 在 TensorFlow C++ 核心 中 ， 分 布 式 会 话 
机 制 亦 同 单机 会 话 保持 一 致 的 接口 语义 。 为 了 有 效 管理 分 布 式 会 话 运行 ,TensorFlow 设计 了 一 种 
主 - 从 (master-worker ) 模型 ， 将 会 话 的 运行 时 抽象 和 流程 分 解 到 不 同 角 色 的 运行 时 实体 上 。 多 
个 会 话 实 例 及 同一 会 话 的 各 个 组 件 在 gRPC 通信 机 制 的 辅助 下 ， 能 够 实现 跨 进程 协同 。 本 节 将 介 
绍 分 布 式 会 话 运行 的 原理 与 设计 。 


14.4.1 主 - 从 模型 


主 -从 模型 包含 master、worker 和 client 角色 及 其 对 应 的 功能 组 件 。 在 核心 层 代码 中 ，master 
与 worker 是 管理 会 话 与 数据 流 图 的 实体 ,master 组 件 负 责 管理 分 布 式 会 话 的 生命 周期 及 数据 流 
执行 任务 的 分 配 , worker 组 件 负责 管理 数据 流 图 的 局 部 图 在 特定 进程 、 特 定 设 备 上 的 执行 。 master 
与 worker 角色 并 没有 绑 定 到 两 类 不 同 的 进程 ， 它 们 之 间 也 不 存在 固定 的 映射 关系 。 每 个 
TensorFlow 任务 ( 一般 对 应 到 一 个 进程 ) 均 具备 同时 履行 master 与 worker 两 种 角色 的 能 力 ， 这 
体现 在 每 个 进程 运行 时 均 通 过 gRPC 提供 master 和 worker 两 类 服务 ， 并 对 集群 中 的 其 他 进程 开 
放 访 问 。 与 master 和 worker 角色 相对 应 ，TensorFlow 把 定义 数据 流 图 、 创 建 并 运行 会 话 的 运行 
时 实体 定义 为 client 角色 。client 程 序 一 般 是 指使 用 TensorFlow API 开发 的 应 用 程序 , 但 client 角 
色 的 功能 实现 代码 仍 位 于 TensorFlow 核心 层 。 对 于 当前 的 TensorFlow 开源 实现 ，client 角色 往往 
与 master、worker 运行 在 同一 进程 内 。 


需要 注意 的 是 ，TensorFlow 核心 层 的 主 -从 模型 同 应 用 层 API 提供 的 PS-worker 编程 模型 并 
非 同 一 概念 。 两 个 模型 中 同名 的 worker 概念 具有 不 同 的 含义 ， 不 能 认为 PS 或 chief worker 任务 
属于 master 角色 .worker 任 务 属 于 worker 角色 。master 和 worker 角色 作为 逻辑 概念 ,对 TensorFlow 
任务 实体 而 言 并 非 确定 或 唯一 ， 而 是 与 具体 的 会 话 运行 过 程 相 绑 定 的 ， 并 人 允许 动态 变化 。 尽 管 
Google 在 TensorFlow 架构 文档 〈 详 见 https://www.tensorflow.org/extend/architecture ) 中 给 出 了 一 
种 “1 client - 1 master 一 多 worker” 的 典型 图 示 ， 然 而 我 们 需要 知道 ， 这 并 非 TensorFlow 分 布 式 
应 用 的 唯一 布局 模式 。 事 实 上 ， 上 层 抽象 对 核心 层 机 制 的 使 用 方式 决定 了 应 用 层 语义 到 主 -从 模 
型 的 映射 关系 。Python API 等 上 层 接口 提供 的 抽象 为 分 布 式 会 话 带 来 灵活 的 配置 能 力 ， 人 允许 应 用 
开发 者 编写 不 同 并 行 模式 的 程序 ; 二 次 开发 者 亦 可 以 在 CAPI 基础 上 设计 更 加 多 样 的 编程 模型 ， 
充分 发 挥 主 - 从 模型 的 可 扩展 能 力 。 

这 里 以 一 个 典型 的 PS-worker 模式 应 用 程序 一 一 TensorFlow 自 带 的 mnist replica.py 为 例 , 说 
明 主 -从 模型 中 的 角色 在 应 用 任务 中 的 体现 。 图 14-8 给 出 了 该 应 用 的 1 PS + 2 worker 运行 实例 ， 
其 中 主 - 从 模型 的 角色 名 称 以 方 括号 标识 , PS-worker 模型 的 任务 名 称 以 花 括 号 标识 。 所 有 任务 的 
进程 均 由 同一 份 程序 (包括 Python 脚本 、 解 释 需 及 TensorFlow 运行 时 库 ) 启动 ， 因 此 它们 均 具 
备 同 时 履行 master 、worker 和 client 三 种 角色 的 能 力 。 然 而 ，PS 任务 在 启动 之 后 随即 进入 阻塞 等 
待 状态 ， 其 client 代码 不 再 驱动 会 话 的 运行 ，master 服务 也 不 被 其 他 任务 调用 ， 因 此 可 认为 PS 
任务 只 作为 worker 角色 存在 。 对 于 worker 任务 ,无 论 它 是 否 为 chief worker, 均 具 有 独立 的 会 话 
对 象 ， 均 由 其 client 代码 调用 master 服务 ， 驱 动 会 话 的 运行 ( MasterService::Runstep 接 1 )。 
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会 话 运行 时 ， 依 据 数据 流 图 切 分 结果 ，master 组 件 有 可 能 调用 本 任务 或 PS 任务 的 worker 服务 ， 
运行 不 同 的 局 部 图 (WorkerService: :RunGraph 接口 )。PS 和 worker 任务 上 的 图 运行 时 ， 亦 会 
通过 worker 组 件 发 起 进程 间 通信 ， 实 现 参数 交换 ( WorkerService: :RecvTensor 接口 )。 因 此 ， 
两 个 worker 任务 各 自 具 有 三 种 逻辑 角色 。 但 以 任务 自身 视角 观察 ， 符 合 “1 client - 1 master 一 多 
worker” 的 视图 。 


{Worker task 0 (chief)} {PS task 0} {Workertask 1} 


Application 1 加 Application 
[Client] 1 [Cli . [Client] 
Python API ' ! 1 Python API 


i 
条 1 
Master Service 1 ' Master Service 
1 


[Master] ' | [Master] 


一 一 | 


Worker Service | Worker Service [| Worker Service 


[Worker] | [Worker] | [Worker] 


RecvTensor() RecvTensor() 


图 14-8” 主 -从 模型 中 的 角色 在 典型 PS-worker 应 用 任务 中 的 体现 


14.4.2 主要 抽象 


14-9 给 出 了 分 布 式 会 话 涉及 的 主要 抽象 的 UML 类 图 ,作为 分 布 式 运行 时 驱动 框架 的 gRPC 
服务 ， 我们 已 在 13.3 节 中 介绍 过 。 在 该 框架 中 ，master 和 worker 服务 的 接口 代码 由 master_ 
service.proto 和 worker_service.proto 文件 定义 ， 它 们 经 过 Protocol Buffers 编译 生成 相应 的 C++ 代 
码 。TensorFlow 源 代 码 包 中 的 MasterService 和 WorkerService 类 对 部 分 自动 生成 的 方法 进行 
了 覆盖 或 特 化 实现 。MasterInterface 和 WorkerInterface 类 分 别 定 义 了 master 和 worker 组 件 
提供 的 功能 接口 , 这些 C++ 接口 与 相应 角色 的 gRPC 服务 接口 基本 一 一 对 应 。GrpcRemoteMaster 
和 Grpc RemoteWorker 类 继承 了 这 些 C++ 接口 ， 作 为 两 种 服务 在 调用 方 的 存根 类 使 用 ， 其 主要 
工作 是 向 同名 的 远程 gRPC 函数 发 起 请 求 。GrpcMasterSservice 和 GrpcWorkerService 类 则 是 两 种 


服务 的 顶层 实现 类 ， 它 们 调用 master 与 worker 组 件 ， 实 现 gRPC 函数 的 功能 ， 并 输出 响应 消息 。 
master 与 worker 角色 的 功能 实现 类 分 别 是 Master 类 和 Worker 类 。 一 方面 ， 两 个 类 的 方法 
可 以 被 同名 的 gRPC 实现 函数 直接 或 间接 调用 ， 以 便 响 应 远程 请 求 。 另 一 方面 ， 两 种 角色 均 具 有 
本 地 调用 路 径 的 优化 设计 ， 即 在 访问 同一 进程 内 的 实现 对 象 时 ， 无 须 经 由 gRPC 机 制 访 问 回环 网 4 
络 设备 ， 而 是 直接 调用 本 地 对 象 的 方法 。 具 体 而 言 ， 对 于 响应 远程 请 求 的 情况 : (1) Master 对 象 
的 方法 可 以 直接 被 6rpcMasterService 类 的 成 员 方法 调用 ; (2) Worker 类 具有 名 为 GrpcWorker 的 
子 类 ， 专 门 提供 给 GrpcWorkerService 类 使 用 。 它 以 更 优化 的 方式 覆盖 实现 了 RecvTensorAsync 
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方法 ,可 以 避免 gRPC 通信 时 数据 序列 化 的 开销 。 对 于 响应 本 地 请 求 的 情况 : (1) master 组 件 的 本 
地 调用 路 径 优化 由 LocalMaster 类 实现 ,该 类 继承 了 MasterInterface 类 定义 的 接口 ， 并 将 请 
求 转 发 给 本 地 的 Master 对 象 执行 ， 从 而 绕 过 了 GrpcRemoteMaster 类 。LocalMaster 类 作为 中 
介 类 型 存在 的 意义 ， 是 将 Master 类 的 异步 方法 经 由 Notification 机 制 封装 为 同步 方法 ， 从 而 
简化 本 地 方法 调用 的 逻辑 。(2) Worker 类 继承 了 WorkerInterface 类 定义 的 接口 。 当 master 组 件 
访问 本 地 Worker 对 象 时 ， 可 以 直接 调用 Worker 对 象 的 方法 ， 无 须 借助 G6rpcRemoteWorker 类 。 


—worker_: GrpcWorker* —master_impl_: Master* 

— Worker service_: WorkerService::AsyncService —master_service_: MasterService::AsyncService +Create 

+HandleRPCsLoop + HandleRPCsLoop +Extend 

—Schedule 人 j — CreateSessionHandler 

— RegisterGraphHandler 一 ExtendSessionHandler +Close 

一 RunGraphHandler 一 PartialRunSetupHandler 一 RunHelper 

—CleanupGraphHandler —RunStepHandler — RunProto 
RecvTensorHandlerRa essionHandle 一 CreateImpl 

一 ExtendImpl 


一 run_graphs_: RCGMap 


十 CreateSession + CreateSession +CreateSession 二 bartial run graphs_: RCGMap 


GrpcSession 


十 CreateSession 


十 ExtendSession Cj +ExtendSession [| + ExtendSession +ExtendSession 

+PartialRunSetup +PartialRunSetup + PartialRunSetup +PartialRunSetup 

+RunStep +RunStep + RunStep +RunStep 

+CloseSession +CloseSession +CloseSession +CloseSession 
er 
| ~ | = 


+CreateWorkerSessionAsync + CreateWorkerSessionAsync 
十 RegisterGraphAsync [HH + RegisterGraphAsync 


MasterSession: :ReffedClientGraph 


十 RunGraphAsync + RunGraphAsync —partitions_: std::vector<Part> 
+CleanupGraphAsync + CleanupGraphAsync 一 client graph std::unique ptr<SimpleClientGraph> 
十 RecvTensorAsync + RecvTensorAsync +RegisterPartitions 

—DoRunGraph A 人 +RunPartitions 


二 DoPartialRunGraph 十 ProcessStats 


+CleanupPartitionsAsync 

区 一 DoBuildPartitions 
+CreateWorkerSessionAsync 
十 RegisterGraphAsync 


WorkerSession 
+ worker_name : string 
+ worker_cache : std::unique_ptr<WorkerCachelInterface> 
+device mgr: std::unique_ptr<DeviceMegr> 
+graph mgr : std::unique ptr<GraphMegr> 


—DoRegisterPartitions 
一 TrackFeedsAndFetches 
十 RunGraphAsync © 


+ CleannpGraphAsyne MasterSession: :ReffedClientGraph:: Part 


十 RecvTensorAsync +name. string 


二 feed_key : std::unordered map<string, string> 
CA + key_fetch : std::unordered_map<string, string> 


+ worker : WorkerInterface* 
+graph_handle string 

FExectteAsyne Ti rstring 2 
+ SendInputs +handle : string 

+ RecvOutputs > +lib_def : FunctionLibraryDefinition* 
—StartParallelExecutors +units : std::vector<ExecutionUnit> 十 graph : Graph* 

一 SendInputsToRendezvous 十 graph_mgr : GraphMgr* 十 root : Executor* 

一 RecvOutputsFromRendezvous | | 


图 14-9 分布 式 会 话 运 行 过 程 中 相关 抽象 的 UML 类 图 ( 只 列 出 关键 成 员 变量 与 方法 ) 


分 布 式 会 话 抽象 在 TensorFlow 核心 层 被 分 解 为 GrpcSession 、MasterSession 和 WorkerSession 
等 抽象 ， 它 们 各 自 的 功能 介绍 如 下 。 


口 GrpcSession 类 是 会 话 的 上 层 ( 调用 层 ) 抽象 ， 其 实例 运行 于 client 组件 中 。 它 同 单机 会 
话 的 DirectSsession 类 一 样 ， 继 承 了 session 父 类 ， 代 表 完 整数 据 流 图 上 的 整个 会 话 生 
命 周 期 。Grpcsession 类 提供 会 话 的 创建 、 扩 展 、 运 行 等 方法 ， 这 些 方法 的 实现 由 私有 
的 MasterInterface 指针 指向 的 对 象 完成 。 当 待 调用 的 master 组 件 位 于 会 话 所 处 的 同一 
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进程 时 ， 指 针 指 向 LocalMaster 对 象 ; 否则 ， 指 针 指 向 GrpcRemoteMaster 对 象 。 

口 MasterSession 类 是 会 话 的 下 层 (执行 层 ) 抽象 ， 其 实例 运行 于 master 组 件 中 。 作 为 会 
话 操作 的 实施 者 ， 该 类 封装 了 会 话 运行 所 需 的 数据 流 图 、 设 备 等 资源 指针 ， 以 及 
MasterSession: :RunSstate 等 状态 抽象 。 内 舱 类 MasterSession: :ReffedClientGraph 

是 针对 SimpleClientGraph 对 象 指 针 的 一 种 带 有 引用 计数 的 封装 类 型 ， 主 要 用 于 master 

组 件 驱 动 数 据 流 图 的 运行 。 内 髓 结构 MasterSession: :ReffedClientGraph: :Part 用 于 

管理 切 分 后 的 数据 流 图 。 
口 WorkerSession 是 一 种 在 worker 组 件 中 使 用 的 简单 数据 结构 ， 本 身 并 不 提供 成 员 方 法 。 
它 封 装 了 会 话 在 本 worker 组 件 中 执行 时 所 需 调 用 的 几 种 外 部 对 象 ( 如 设备 管理 器 、 数 据 
流 图 管理 器 ) 的 指针 ， 以 便于 Worker 对 象 在 会 话 运行 时 调用 外 部 对 象 的 方法 。 
GraphMgr 类 用 于 在 worker 组 件 中 管理 数据 流 图 ， 它 提供 数据 流 图 注册 、 执 行 、 注 销 以 及 输 

入 和 输出 张 量 访问 等 方法 。 内 骸 结 构 GraphMgr: :Item 记录 了 每 幅 图 的 元 信息 ， 其 指针 集合 作为 

GraphMgr 类 的 成 员 ( table_) 保存 。 男 一 内 髓 结构 GraphMgr: :ExecutionUnit 记录 了 切 分 后 的 

局 部 图 所 关联 的 设备 、 执 行 器 等 对 象 指针 , 其 实例 集合 作为 GraphMgr: :Item 结构 的 成 员 ( units ) 

保存 。 此 外 ，TensorFlow 还 设计 了 SessionMgr 类 ， 用 于 在 worker 组 件 中 管理 Workersession 

对 象 。 它 存储 着 worker 组件 所 使 用 的 Workersession 对 象 指针 的 集合 ， 提 供 基 于 数据 流 图 句柄 

或 执行 步 ID 获取 Workersession 指针 的 方法 。 


14.4.3 client 创 建 会 话 


在 C API 层 面 ， 单 机 会 话 与 分 布 式 会 话 的 创建 具有 相同 的 和 人口， 即 TF_NewSession 函数 。 该 
函数 判断 应 当 创 建 单机 会 话 ( Directsession ) 还 是 分 布 式 会 话 ( Grpcsession ) 的 依据 是 
Session0ptions 结构 的 target 字段 。 这 个 结构 是 由 Python API 等 上 层 接口 封装 到 TF_SessionOptions 
参数 中 的 ,结构 内 的 target 字段 用 于 指定 会 话 竺 连接 的 TensorFlow 运行 时 位 置 : 为 空 时 表示 使 
用 本 地 运行 时 ， 为 形 如 “grpc://[ 主 机 名 ]:[ 端 口 ]” 的 字符 串 时 表示 使 用 分 布 式 运行 时 。 
TF_NewSession 消 数 通过 全 局 的 Newsession 子 数 调用 会 话 工厂 基 类 sessionFactory 的 
GetFactory 静态 方法 ， 该 方法 依据 target 字段 选择 性 地 返回 对 应 的 会 话 工厂 类 。 全 局 
NewSession 函数 随后 调用 工厂 类 的 NewSession 方法 ,进而 级 联 调用 相应 会 话 类 的 Create 方法， 
实现 会 话 创建 。 

14-10 给 出 了 client 组 件 创建 会 话 的 主要 流程 。 对 于 分 布 式 会 话 ，GrpcSession: :Create 
静态 方法 首先 使 用 session0ptions 参数 构造 一 个 GrpcSession 对 象 。 然 后 , 调用 LocalMaster:: 
Lookup 静态 方法 ， 检 查 target 字段 指定 的 master 组 件 是 否 位 于 当前 进程 中 。 如 果 是 ， 则 使 用 
LocalMaster 对 象 封 装 的 本 地 Master 对象; 否则 依次 调用 NewHostPortGrpcChannel 和 NewGrpcMaster 
全 局 函数 ,创建 用 于 访问 远程 Master 对 象 的 GrpcRemoteMaster 存根 对 象 , 最 后 ,调用 GrpcSession:: 
SetRemoteMaster 方法 ， 将 本 地 或 存根 master 组 件 的 指针 保存 在 新 建 的 GrpcSession 对 象 中 ， 
以 供 后 续 使 用 。 
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14-10 client 创建 会 话 的 主要 流程 


14.4.4 _ client 请 求 图 运行 


分 布 式 会 话 的 运行 涉及 client- master- worker 三 个 调用 层次 ， 其 中 client 组 件 是 会 话 运行 的 
起 点 。 应 用 层 代 码 通过 多 语言 API 间接 调用 Grpcsession::Run 方法 ,启动 会 话 的 运行 。 
GrpcSession: :Run 作为 入口 方法 ,具有 同 单机 会 话 运行 类 似 的 签名 : Status GrpcSession: :Run 
(const RunOptions& run_options，const std: :vector<std: :pair<string，Tensor>>& inputs， 


const std: :vector<string>& output tensor names, const std: :Vector<string>& target_ 
node_names,std::vector<Tensor>* outputs，RunMetadata* run_metadata)。 其 中 ， 主 要 
输入 参数 inputs、output_tensor_names、target_node_names 分 别 是 本 次 运行 涉及 的 输入 张 
量 集合 以 及 输出 和 目标 节点 名 称 向 量 , 主要 输出 参数 outputs 是 本 次 运行 生成 的 张 量 集 合 。 与 单 
机 会 话 不 同 的 是 ，Grpcsession::Run 的 调用 栈 并 不 实现 会 话 运行 的 全 流程 ， 而 是 负责 向 master 
组 件 发 出 数据 流 图 运行 请 求 。 

图 14-11 给 出 了 client 组件 请 求 图 运行 的 主要 流程 。Grpcsession: :Run 方法 将 参数 转发 给 通用 性 
更 强 的 GrpcSession: :RunHelper 方法 。GrpcSession: :RunHelper 方法 首先 调用 MasterInterface 
类 或 其 本 地 优化 子 类 的 CreateRunSstepRequest 和 CreateRunstepResponse 方法 ,创建 访问 
master 服务 Runstep 接口 所 需 的 请 求 与 响应 消息 包装 类 ( MutableRunStep RequestWrapper、 
MutableRunstepResponseWrapper ) 的 子 类 对 象 ， 并 使 用 接口 参数 为 请 求 对 象 的 成 员 赋 值 。 
TensorFlow 针对 三 种 组 件 相对 位 置 的 不 同 组 合 情 况 ， 提 供 了 gRPC 消息 包装 类 的 多 种 子 类 ， 其 目 
的 是 优化 请 求 与 响应 中 的 张 量 存储 方式 ， 尽 可 能 避免 数据 复制 开销 。 这 些 包装 类 的 实现 参见 


tensorflow/core/distributed_runtime/message_wrappers.h 文件 。 
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GrpcSession:: RunHelper 


srpc:: MasterService::Stub::RunStep 


图 14-11 client 请 求 图 运行 的 主要 流程 


接 下 来 ，GrpcSession: :RunHelper 方法 将 消息 包装 对 象 传递 给 Grpcsession: :RunProto 方 
法 。 后 者 会 调用 Grpcsession 私有 的 master_ 指针 的 Runstep 方法 ， 正 式 发 起 图 运行 请 求 。 对 
于 远程 运行 和 本 地 优化 的 情况 ,master_ 指针 分 别 指向 GrpcRemoteMaster 和 LocalMaster 对 象 。 
远程 运行 数据 流 图 时 ,GrpcRemoteMaster: :Runstep 方 法 会 调用 gRPC 自动 生成 的 存根 类 grpc:: 
MasterService::Stub 的 Runstep 方法 ， 向 master 组 件 所 在 的 进程 发 起 图 运行 请 求 。 进 入 本 地 
优化 路 径 时 ，LocalMaster: :RunStep 方法 会 调用 当前 进程 Master 对 象 的 Runstep 方法 ， 其 后 
续 调 用 栈 等 同 于 下 一 节 介 绍 的 master 驱动 图 运行 流程 。 

最 后 ，GrpcSession::RunHelper 方法 同步 等 待 G6rpcsession::RunProto 方法 的 返回 。 返 
回 之 后 , 它 将 提取 响应 消息 中 的 输出 张 量 , 通过 指针 交换 方式 赋值 给 上 级 调用 者 传人 的 输出 参数 ， 
完成 数据 流 图 的 一 次 分 布 式 执行 步骤 。 


14.4.5 master 驱动 图 运行 


master 组 件 的 gRPC 服务 接收 到 来 自 client 的 Runstep 请 求 后 ， 将 会 驱动 数据 流 图 的 运行 。 
图 14-12 给 出 了 这 一 过 程 的 主要 流程 。 本 过 程 以 GrpcMasterService: :RunstepHandler 方法 为 
起 点 ， 该 方法 从 gRPC 调用 中 提取 出 请 求 消息 ， 交 由 服务 关联 的 Master 对 象 的 Runstep 方法 执 
行 。 后 者 具有 一 个 匿名 的 回调 函数 参数 , 用 于 在 方法 执行 完毕 后 向 client 组 件 发 送 gRPC 响应 ( 即 
Call: :SendResponse 方法 )。Master: :Runstep 方法 基于 请 求 消息 中 的 会 话 句 柄 字段 ， 为 本 次 
图 运行 找到 对 应 的 MasterSession 对 象 。 然 后 将 MasterSession: :Run 方法 连同 传人 的 回调 函 
数 一 并 封装 到 匿名 函数 对 象 中 ， 交 由 SchedClosure 函数 调度 至 全 局 线程 池 中 执行 。 


MasterSession: :Run 方法 依据 Runstep 请 求 中 的 partial_run_handle 字段 值 ， 将 请 求 转 
发 给 本 对 象 的 DoPartialRun 或 DoRunWithLocalExecution 方法 执行 。 对 于 该 参数 为 空 的 情况 ， 
DoRunWithLocalExecution 方法 是 图 运行 过 程 的 核心 驱动 者 。 该 方法 内 部 可 分 为 子 图 提取 、 图 
切 分 与 注册 、 图 运行 , 以 及 状态 处 理 和 资源 清理 等 步 又 。 子 图 提取 由 Mastersession: :Startstep 
方法 完成 , 该 步骤 类 似 于 单机 会 话 数据 流 图 创建 过 程 中 的 子 图 提取 。 它 以 包含 待 运行 子 图 的 输入 、 


-一 


输出 节点 信息 的 BuildGraphoptions 结构 为 输入 ， 通 过 调用 simpleGraphExecutionState:: 
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BuildGraph 方法 创建 子 图 的 simpleClientGraph 对 象 ， 然 后 将 子 图 封装 到 Mastersession: : 
ReffedClientGraph 对 象 并 返回 。 


GrpcMasterService:: RunStepHandler 


SchedClosure 


ThreadPool : 


MasterSession::Run 
MasterSession:: DoRunWithLocalExecution 
MasterSession:: StartStep 


ReffedClientGraph:: RegisterPartitions 


SimpleGraphExecutionState:: BuildGraph 


MasterSession:: BuildAndRegisterPartitions 


ReffedClientGraph:: DoBuildPartitions 


ReffedClientGraph:: DoReeisterPartitions 
ReffedClientGraph:: TrackFeedsAndFetches 
WorkerCachelInterface:: Create Worker 


ReffedClientGraph :: RunPartitions 


图 14-12 ”master 驱动 图 运行 的 主要 流程 


GrpcRemote Worker:: RegisterGraphAsync 


WorkerInterface:: CreateRunGraphRequest 


图 切 分 与 注册 由 Mastersession: :BuildAndRegisterPartitions 方法 完成 。 该 方法 构建 切 分 
操作 所 需 的 PartitionOptions 参数 之 后 ， 调 用 ReffedClientGraph 对 象 的 RegisterPartitions 
方法 ， 先 后 执行 图 切 分 (DoBuildPartitions ) 和 图 注册 (DoRegisterPartitions ) 这 两 个 
步骤 。 

口 图 切 分 步 又 与 单机 会 话 的 图 切 分 类 似 ， 由 Partition 全 局 函数 完成 。 不 同 的 是 ， 此 时 每 
幅 局 部 图 所 映射 的 设备 有 可 能 是 注册 到 不 同 的 任务 进程 、 位 于 不 同 的 服务 器 上 的 。 
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口 图 注册 的 目的 是 将 所 有 局 部 图 的 运行 任务 分 配 到 各 自 对 应 的 worker 组 件 。 该 步 又 遍历 每 

幅 局 部 图 ， 首先 调用 ReffedClientGraph: :TrackFeedsAndFetches 方法 ， 将 图 的 输 
入 、 输 出 节点 信息 记录 到 MasterSession: :ReffedClientGraph: :Part 结构 中 。 然 后 调用 
WorkerCacheInterface: :CreateWorker 方法 ， 为 图 的 运行 准备 worker 组 件 。CreateWorker 
方法 返回 的 指针 有 可 能 指向 事先 缓存 的 、 为 本 地 调用 路 径 优 化 过 的 GrpcWorker 对 象 ， 
也 有 可 能 指向 作为 访问 远程 worker 组 件 的 存根 而 新 建 的 GrpcRemoteWorker 对 象 。 以 后 
者 为 例 ， 图 注册 步骤 会 调用 存根 对 象 的 RegisterGraphAsync 方法 ， 向 worker 服务 发 出 
gRPC 请 求 ， 完 成 待 执行 局 部 图 在 worker 组 件 中 的 注册 。 

完成 图 切 分 与 注册 之 后 , DoRunWithLocalExecution 方法 将 调用 MasterSession: :Reffed- 
ClientGraph: :RunPartitions 方法 , 驱动 数据 流 图 运行 。RunPartitions 方法 首先 调用 Worker 
Interface 类 的 CreateRunGraphRequest 和 CreateRunGraphResponse 方法 ,为 RunGraph 接口 
的 gRPC 调用 创建 请 求 与 响应 消息 包装 对 象 。 这 些 对 象 同 client 组 件 访 问 Runstep 接口 时 创建 的 
消息 包装 对 象 类 似 ， 主 要 用 于 优化 数据 存储 ， 避 免 不 必 要 的 复制 开销 。 随 后 ，RunPartitions 方 
法 遍历 记录 在 MasterSsession: :ReffedClientGraph: :Part 对 象 中 的 每 个 worker 组 件 指 针 ， 调 
用 其 RunGraphAsync 方法 。 对 于 远程 运行 局 部 图 的 情况 ， 这 时 调用 的 将 是 GrpcRemoteWorker 
: :Run GraphAsync 方法 。 该 方法 对 worker 服务 发 起 RunGraph 的 gRPC 请 求 ， 从 而 驱动 已 注册 的 
局 部 图 在 worker 组 件 上 的 异步 运行 。 最后，RunPartitions 方法 会 调用 辅助 类 型 RunManyGraphs 
的 Wait 方法 ， 同 步 等 待 所 有 RunGraph 调用 的 完成 ， 并 获取 输出 张 量 。RunManyGraphs 类 的 功 
能 及 实现 类 似 于 单机 会 话 中 的 ExecutorBarrier 类 。 

图 运行 完成 后 ，DoRunWithLocalExecution 方法 将 调用 Mastersession: :ReffedClient- 
Graph: :ProcessStats 和 MasterSession: :ReffedClientGraph::CleanupPartitionsAsync 方 
法 ， 进 行 状态 处 理 和 资源 清理 。ProcessStats 方法 将 数据 流 图 操作 节点 等 对 象 的 状态 标记 为 已 
完成 ,并 记录 当前 执行 步 的 执行 时 间 。CleanupPartitionsAsync 方法 则 会 调用 本 地 或 远程 worker 
组 件 的 cleanupGraphAsync 方法 ， 通知 其 清理 当前 执行 步 涉 及 的 相关 资源 ， 以 节约 内 存 开销 。 


14.4.6 ”worker 实 施 图 运行 


worker 组件 的 gRPC 服务 接收 到 来 自 master 的 RunGraph 请 求 后 ,将 会 实施 数据 流 图 的 运行 。 
图 14-13 给 出 了 这 一 过 程 的 主要 流程 。 本 过 程 的 起 点 是 GrpcWorkerService: :RunGraphHandler 
方法 。 作 为 worker 服务 的 接口 之 一 ，RunGraph 接口 的 实现 机 制 同 13.3.3 节 介 绍 的 RecvTensor 
接口 有 类 似 之 处 ， 即 通过 逐 级 封装 的 回调 函数 实现 gRPC 服务 需 端 逻辑 的 异步 处 理 ( 图 中 以 虚线 
箭头 表示 匿名 回调 函数 的 定义 位 置 ) 同时， 分布 式 会 话 的 局 部 图 执行 逮 辑 复 用 了 单机 会 话 的 部 
分 代码 ， 使 得 TensorFlow 的 数据 流 图 底层 计算 机 制 具有 统一 的 实现 。 

GrpcWorkerService: :RunGraphHandler 被 gRPC 事件 机 制 触发 后 , 旋即 调用 GrpcWorker- 
Service::Schedule 方法 ,将 封装 了 本 地 GrpcWorker 对 象 Worker: :RunGraphAsync 方法 的 匿 
名 函数 调度 到 本 进程 的 线程 池 中 排队 执行 。RunGraphAsync 的 输入 参数 包含 一 个 封装 了 call:: 
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SendResponse 方法 的 完成 回调 函数 ， 它 将 在 RunGraphAsync 执行 完毕 之 后 调用 ， 以 便 向 master 
组 件 发 送 gRPC 响应 。 


GrpcWorkerService::RunGraphHandler [FF-------------------! 
GrpcWorkerService::Schedule 


ThreadPool : : 


ee : 
te 
Callback: l ， 


图 14-13 ”worker 实施 图 运行 的 主要 流程 


Worker: :RunGraphAsync 方法 依据 请 求 消息 中 的 is_partial 字段 值 , 将 请 求 转发 给 本 对 象 
的 DoPartialRunGraph 或 DoRunGraph 方法 执行 。 对 于 执行 整个 局 部 图 的 常规 情况 , 图 运行 逻辑 
由 DoRunGraph 方法 执行 。 该 方法 首先 调用 Worker: :PrepareRunGraph 方法 , 从 gRPC 请 求 中 提 
取 图 运行 所 需 的 参数 。 然 后 调用 本 地 sessionMgr 管理 的 GraphMgr 对 象 的 ExecuteAsync 方法 ， 
异步 执行 已 注册 的 局 部 图 。ExecuteAsync 方法 的 输入 参数 亦 包 含 一 个 完成 回调 函数 ， 该 回调 函 
数 用 于 在 图 运行 完毕 后 收集 输出 张 量 ， 写 入 gRPC 响应 消息 。 

GraphMgr: :ExecuteAsync 方法 执行 局 部 图 的 流程 与 单机 会 话 的 图 运行 过 程 类 似 ， 其 中 输入 
数据 填充 和 输出 数据 获取 使 用 的 是 会 合 点 方式 。 首 先 ， 通 过 BaseRendezvousMgr: :Find 方法 得 
到 当前 执行 步 对 应 的 会 合 点 对 象 。 然 后 ， 调 用 GraphMgr: :SendInputsToRendezvous 方法 向 会 合 
点 发 送 输入 数据 。 接 下 来 ， 调 用 GraphMgr: :StartParallelExecutors 方法 ， 启 动 局 部 图 在 特定 
计算 设备 上 的 执行 ( 可 参考 14.3.4 节 对 ExecutorImp1: :RunAsync 等 方法 的 详细 说 明 )。 最 后 , 在 
ExecutorBarrier 对 象 完成 障 栅 同 步 操作 之 后 进入 完成 回调 函数 ， 调 用 GraphMgr: :RecvOutputs 
方法 , 从 会 合 点 接收 输出 数据 。 至 此 , worker 组 件 实现 了 局 部 图 的 一 个 执行 步 在 分 布 式 会 话 中 的 运行 。 
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14.5 ”操作 节点 执行 


无 论 在 何 种 运行 模式 下 , 数据 流 图 操作 节点 的 执行 最 终 需 要 落实 到 具体 的 计算 设备 。 本 书 已 
在 12.2.3 节 介 绍 了 操作 节点 相关 的 主要 数据 结构 , 说 明了 基于 方法 链 的 操作 定义 与 注册 机 制 ; 并 
在 12.4.1 节 介 绍 了 操作 节点 支持 异 构 加 速 器 的 原理 ， 说 明了 基于 C++ 模板 的 异 构 设备 核 函 数 实 
现 技 巧 。 在 此 基础 上 ， 我 们 可 以 进一步 分 析 会 话 运行 过 程 中 操作 节点 及 其 核 函 数 的 执行 逻辑 。 

TensorFlow 提供 的 操作 种 类 众多 , 既 包括 面向 矩阵 和 张 量 计算 的 各 种 代数 算法 操作 , 也 包括 
用 于 数据 填充 、 通 信和 排队 的 多 种 流程 控制 操作 。 这 里 以 神经 网 络 算法 中 常用 的 矩阵 乘法 操作 
( MatMul0op ) 为 例 ， 介 绍 其 执行 原理 。 


14.5.1 核 函 数 抽象 


在 TensorFlow C++ 核心 屋 ， 操 作 节 点 执行 过 程 的 本 质 是 节点 对 应 的 核 函 数 执行 过 程 ， 因 此 
有 必要 了 解 核 隐 数 抽象 及 其 在 会 话 中 的 地 位 。 本 市 不 再 重复 陈述 前 面 介绍 过 的 核 函数 关键 抽象 ， 
而 是 结合 数据 流 图 的 运行 过 程 ， 说 明 核 函数 对 象 的 创建 过 程 及 运行 时 辅助 数据 结构 的 设计 。 

从 计算 语义 的 角度 看 ,数据 流 图 的 操作 节点 是 设备 无 关 的 。 但 数据 流 图 执行 时 ,操作 核 函 数 
必须 在 特定 的 设备 上 运行 。 因此 , 核 函 数 对 象 的 创建 只 有 在 面向 设备 的 局 部 图 切 分 和 节点 放置 过 
程 完成 之 后 才能 执行 。 在 会 话 执行 器 获取 过 程 ( 例如 单机 会 话 的 DirectSession: :GetOrCreate- 
Executors 方法 ) 中 ， 辅 助 结构 LocalExecutorParams 的 create_kernel 函数 指针 会 被 赋予 一 
个 匿名 函数 ,用 于 实现 核 本 数 对 象 的 创建 。 该 匿名 函数 关联 到 了 执行 器 对 应 的 计算 设备 。 会 话 运 
行 时 ，ExecutorImp1: :Initialize 方法 会 对 数据 流 图 上 的 每 个 操作 节点 分 别 调用 create_kernel 
函数 。 这 时 创建 的 核 函 数 对 象 将 是 对 应 操作 在 特定 设备 上 的 特 化 版 本 ， 即 基于 C++ 模板 特 化 机 
制 ， 为 特定 设备 类 型 独立 编写 的 版 本 。 

create_kernel 困 数 之 所 以 能 够 得 到 核 冰 数 对 象 的 特 化 版 本 , 是 因为 早 在 运行 时 核心 注册 核 
函数 子 类 时 ， 同 一 核 函数 子 类 的 多 个 特 化 实现 已 经 被 一 组 REGISTER_KERNEL_BUILDER 宏一 并 注 
册 到 了 kernelRegistration 对 象 中 。create_kernel 指向 的 匿名 函数 内 部 通过 一 系列 带 有 缓存 
机 制 的 工具 类 ， 级 联 调用 定义 于 tensorflow/core/framework/op _ kernelcc 文件 的 CreateOpKernel 全 
局 函数 。 该 函数 使 用 带 有 设备 类 型 参数 的 opKernelConstruction 对 象 , 调用 KkernelRegistration 
对 象 关 联 的 核子 数 工厂 方法 ， 完 成 核 隐 数 特 化 实例 的 创建 。 


对 于 矩阵 乘法 操作 , 它 的 核 函 数 定义 于 tensorflow/core/kernels/matmul op.cc 文件 。 MatMulop 
类 模板 的 签名 为 template <typename Device，typename T，bool USE_CUBLAS> class 
MatMulOp : public OpKernel1， 其 中 Device、T 和 USE_CUBLAS 参数 分 别 指定 实例 化 的 类 对 应 
的 设备 类 型 、 元 素数 据 类 型 和 cuBLAS 支持 性 。 这 个 类 模板 具有 Device 参数 为 CPUDevice、 
GPUDevice 和 SYCLDevice 的 实例 化 类 型 ， 其 辅助 数据 结构 MatMulFunctor 和 LaunchMatMul 具 
有 针对 不 同 设备 类 型 的 特 化 实现 ， 因 此 可 以 认为 矩阵 乘法 操作 具有 针对 3 种 设备 的 特 化 版 本 。 
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名 称 为 “[ 操 作 名 ]+Functor” 和 “Launch+[ 操 作 名 ]” 的 辅助 数据 结构 并 非 MatMulop 类 所 
独 有 ，TensorFlow 的 很 多 计算 类 操作 的 核 函数 均 采 用 这 一 设计 惯例 。 二 者 都 是 封装 核 函 数 实现 逻 
辑 的 结构 模板 ， 前 者 一 般 具 有 重 载 括号 运算 符 的 operator() 方 法 ， 后 者 一 般 具 有 名 为 launch 
的 公开 方法 。 它 们 通常 带 有 表示 设备 类 型 、 数 据 类 型 和 其 他 操作 属性 的 模板 参数 ， 并 对 不 同 设备 
进行 了 特 化 实现 。 二 者 的 髋 套 使 用 能 够 为 核 函 数 模板 的 实例 化 带 来 一 定 的 灵活 性 。 

和 矩阵 乘法 操作 的 代表 性 ， 体 现在 它 使 用 Eigen 库 实现 面向 CPU 和 OpenCL GPU 的 核 函 数 ， 
使 用 cuBLAS 或 NVIDIA 的 其 他 开发 库 实现 面向 CUDA GPU 的 核 函 数 一 一 这 是 TensorFlow 的 多 
数 代 数 算法 操作 选择 的 实现 路 径 。 下 面 分 别 以 CPU 和 CUDA GPU 为 例 说 明 其 具体 流程 。 


14.5.2 ”CPU 上 的 执行 流程 


14-14 给 出 了 矩阵 乘法 操作 在 CPU 上 执行 的 主要 流程 。 该 操作 的 核 函 数 子 类 MatMulop 以 
CPUDevice 作为 设备 类 型 的 实例 化 参数 ， 兼 容 浮 点 数 和 整数 等 元 素数 据 类 型 ， 且 不 开启 cuBLAS 
支持 。 辅 助 结构 LaunchMatMul 的 特 化 版 本 依次 继承 了 LaunchMatMulCPU 和 LaunchMatMulBase 
父 类 ， 这 是 为 了 同 OpenCL GPU 的 核 也 数 实现 代码 复 用 。 


functor::Mat Mul<CPUDevice, typename In0, typename Inl, 
pename Out, typename DimPair> 


图 14-14 MatMul0p 在 CPU 上 执行 的 主要 流程 


会 话 执行 器 通过 Executorstate: :Process 方法 执行 核 阴 数 时 ,MatMul0p: :Compute 方法 将 
被 设备 对 象 的 Compute 方法 调用 。MatMu10p : :Compute 方法 首先 基于 输入 张 量 的 形状 信息 为 输出 分 
配 内 存 空 间 ， 然 后 通过 LaunchMatMulBase: :launch 及 其 级 联 调用 的 MatMulFunctor: :operator() 
方法 启动 计算 逻辑 的 执行 。 基 于 Eigen 库 实现 的 计算 逻辑 包装 在 名 为 MatMul 的 全 局 函数 中 ， 核 
心 语句 为 : out.device(d) = ine.contract(in1，dim_pair);。 其 中 ， 输 入 参数 的 类 型 为 
MatMulTypes<typename T>: :in_type。 这 是 一 个 类 型 别名 ， 其 实际 类 型 是 Eigen: :TensorMap< 
Eigen::Tensor<const T，2，Eigen: :RowMajor>，Eigen: :Aligned>， 即 元 素数 据 类 型 为 T 的 
二 维 张 量 。Eigen::TensorMap 类 的 contract 方法 实现 了 张 量 缩 并 ( contraction ) 运算 ， 在 这 一 
特例 场景 下 等 价 于 和 矩阵 乘法 。 


14.5.3 CUDA GPU 上 的 执行 流程 
图 14-15 给 出 了 矩阵 乘法 操作 在 CUDAGPU 上 执行 的 主要 流程 。 该 操作 的 核 函 数 子 类 MatMulop 
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以 GPUDevice 作为 设备 类 型 的 实例 化 参数 ,兼容 浮 点 数 和 整数 等 元 素数 据 类 型 ,默认 开启 cuBLAS 
支持 。 辅 助 结构 LaunchMatMul 的 特 化 版 本 借助 StreamExecutor 库 调 用 cuBLAS 库 提 供 的 算法 。 


OpKernelConstruction::allocate output 
LaunchMatMul<GPUDevice ,typename T true>::launch 


DeviceContext::stream 


cublasSgemm / cublasDgemm / cublasCgemm / cublasZgemm 
图 14-15 MatMulop 在 CUDA GPU 上 执行 的 主要 流程 


MatMulop 在 CUDA GPU 上 的 入 口 逻 辑 与 CPU 的 情况 类 似 。 特 化 的 LaunchMatMul: :launch 
函数 首先 需要 从 StreamExecutor 库 取得 在 GPU 上 调用 执行 函数 所 需 的 流 对 象 。 接 下 来 ， 依 据 输 
和 信和 矩阵 的 形状 选择 不 同 的 调用 路 径 。 对 于 两 个 输入 矩阵 均 非 一 维 向 量 的 一 般 情况 , 调用 流 对 象 的 
perftools::gputools::Stream: :ThenBlasGemm 方法 执行 乘法 操作 。 为 了 实现 从 C++ 重 载 方法 
到 cuBLAS 不 同 参数 类 型 函数 的 映射 ， 同 时 实现 异 构 内 存 管理 、 指 针 类 型 转换 和 日 志 等 功能 ， 
StreamExecutor 内 部 对 cuBLAS 函数 调用 进行 了 多 层 封装 。 这 些 封装 函数 最 终 会 依据 输入 矩阵 的 
元 素数 据 类 型 ， 从 cublas*gemm 系列 矩阵 乘法 函数 中 选择 适当 的 一 个 加 载 到 流 上 执行 。 例 如 ， 
对 于 单 精 度 浮 点 数 和 矩阵 ， 使 用 cublassgemm 函数 计算 。 

对 于 其 中 一 个 输入 矩阵 为 一 维 向 量 的 情况 ,LaunchMatMul: :1aunch 函数 会 调用 LaunchBlas - 
Gemv: :Compute 方法 进入 优化 路 径 。 这 一 路 径 最 终 使 用 cuBLAS 的 cublas*gemv 系列 函数 ， 执 
行 矩 阵 - 向 量 乘法 运算 。 

MatMulop 在 OpenCL GPU 上 执行 的 主要 流程 同 CPU 类 似 , 其 差别 在 于 Eigen 库 的 内 部 实现 ， 
这 里 不 再 蒙 述 。 


14.6 小结 


数据 流 图 计算 是 TensorFlow 最 为 核心 的 工作 。 这 一 机 制作 为 运行 时 库 的 “引擎 "， 驱 动 着 各 
个 组 件 有 序 运 转 。 围 绕 控 制 流 与 数据 流 两 条 主线 ，TensorFlow 核心 层 提 出 了 Session 、Graph 等 一 4 
系列 抽象 ,设计 了 层次 化 的 数据 流 图 计算 调用 栈 。 针 对 数据 流 图 这 一 中 心 抽象 ，TensorFlow 具有 
灵活 而 高 效 的 数据 结构 与 控制 逻辑 ,能够 实现 全 图 构造 、 子 图 提取 、 面 向 设备 的 图 切 分 以 及 面向 
执行 的 图 优化 。TensorFlow 使 用 会 话机 制 管理 计算 流程 及 其 相关 对 象 的 生命 周期 。 对 于 单机 会 话 ， 
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它 为 会 话 生 命 周期 整体 、 会话 单 次 运行 和 会 话 在 单个 设备 上 的 执行 提供 不 同 粒 度 的 执行 主体 与 状 
态 管理 抽象 , 将 计算 过 程 组 织 为 可 以 流水 线 式 并 发 执行 的 多 个 阶段 , 旨 在 提高 系统 效率 与 资源 利 
用 率 。 对 于 分 布 式 会 话 ， 它 提供 一 种 主 -从 模型 ， 将 会 话 生 命 5 周期 分 解 到 不 同 角 色 的 组 件 上 ， 为 
应 用 层 API 的 灵活 性 和 算法 模型 的 可 伸缩 性 提供 支撑 。 数 据 流 图 的 计算 逻辑 最 终 通 过 操作 核 函 数 
封装 的 Eigen 和 cuBLAS 等 底层 算法 库 落实 到 了 具体 的 计算 设备 。 理 解数 据 流 图 的 计算 原理 是 掌 
握 TensorFlow 核心 机 理 的 关键 ,也 是 进行 运行 时 库 二 次 开发 的 必由之路 。 
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TensorFlow 生态 环境 


生态 系统 是 开源 软件 获取 生命 力 的 主要 源泉 。Linux 、Hadoop 等 堪 称 经 典 的 开源 软件 很 大 程 
度 上 依靠 着 生态 环境 的 友好 和 开放 促成 了 其 发 展 与 成 功 。TensorFlow 社区 自 软 件 开 源 之 初 便 秉 持 
着 开放 的 态度 , 一 方面 积极 吸纳 第 三 方 开发 者 贡献 的 代码 和 设计 思想 , 另 一 方面 也 热切 欢迎 第 三 
方 系统 适 配 或 集成 TensorFlow。 在 开源 短 短 两 年 的 时 间 内 ，TensorFlow 周边 项 目 大 量 涌 现 一 一 从 
算法 模型 到 辅助 工具 ， 从 易 用 性 封装 到 软件 间 适 配 ， 乃 至 为 之 打造 的 专用 硬件 一 一 这 预示 着 
TensorFlow 将 会 成 为 开源 软件 界 的 又 一 个 经 典 。 本 章 选 取 TensorFlow 生态 系统 中 的 若干 代表 性 
项 目 进行 介绍 。 在 此 基础 上 ， 对 TensorFlow 社区 的 未 来 发 展 加 以 展望 。 


15.1 生态 环境 概况 


TensorFlow 社区 非常 重视 软件 生态 环境 建设 ， 其 开源 理念 与 Linux 和 Hadoop 社区 类 似 ， 即 
社区 的 管理 者 和 贡献 者 专注 于 维护 TensorFlow 核心 组 件 ， 着 力 将 其 打造 为 机 器 学 习 、 深 度 学 习 
领域 通用 而 强大 的 计算 引擎 ， 同 时 对 第 三 方 贡献 的 重要 特性 进行 选择 性 、 渐 进 式 的 集成 。 在 此 基 
础 上 ， 鼓 励 第 三 方 开 展 TensorFlow 的 产品 化 封装 、 易 用 性 设计 、 算 法 模型 研发 ， 以 及 与 特定 应 
用 需求 或 专用 硬件 环境 相关 的 定制 化 开发 。 在 这 一 理念 的 指导 下 ,TensorFlow 社区 自身 托管 着 若 
于 生态 系统 组 件 , 同时 为 他 人 开发 相关 项 目 提供 技术 支持 。 社 区 托管 的 组 件 可 分 3 类 : TensorFlow 
源 代码 包 contrib 目录 中 的 组 件 ecosystem 项 目 中 的 组 件 , 以 及 TensorFlow 团队 管理 的 其 他 组 件 。 
第 三 方 项 目 既 包括 TensorFlow 的 众多 复 刻 (fork ) 和 衍生 版 本 ， 也 包括 针对 市 场 需求 或 行业 特征 
而 开发 的 周边 软 硬 件 产品 。 下 面 简单 介绍 几 类 生态 系统 组 件 的 特点 及 典型 代表 。 


15.1.1 社区 托管 组 件 


TensorFlow 社区 托管 组 件 是 指 以 TensorFlow 开发 团队 ( 用 户 ID :tensorflow ) 的 名 义 在 GitHub 
上 开源 的 周边 组 件 。 这 些 组 件 有 些 来 自 Google 公司 ， 有 些 来 自 第 三 方 开发 者 。 它 们 依据 用 途 和 
成 熟 度 的 差异 ， 被 放置 在 不 同 的 项 目 和 目录 中 。 

1. contrib 组 件 

TensorFlow 源 代码 包 的 tensorflow/contrib 目录 汇集 了 开源 贡献 者 开发 的 数 十 种 组 件 。 这 些 组 
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件 通常 具有 较 高 的 实用 性 和 通用 性 , 通过 了 社区 管理 者 的 审核 及 自动 化 构建 系统 的 验证 ,有 潜力 

成 为 TensorFlow 核心 组 件 的 一 部 分 。 但 可 能 由 于 组 件 的 技术 成 熟 度 不 够 高 、 兼 容 性 受 限 或 其 他 

特殊 原因 ， 暂 时 不 能 进入 TensorFlow 核心 代码 。 社 区 期 望 广 大 用 户 对 这 些 组 件 进行 充分 的 测试 

和 讨论 ,然后 决定 其 未 来 地 位 。 由 于 开发 者 会 根据 社区 和 用 户 的 反馈 对 组 件 进行 及 时 修改 ,这 类 

组 件 的 API 稳 定性 不 如 核心 组 件 , 在 生产 系统 中 使 用 时 需要 特别 留意 。contrib 组 件 涉及 的 特性 广 

泛 , 可 以 大 致 分 为 算法 与 模型 、 系 统 平台 支持 、 专 用 硬件 支持 、 编 译 构建 脚本 和 实用 工具 等 几 类 。 

典型 组 件 介绍 如 下 。 

@ 算法 与 模型 

口 distributions: 若干 统计 分 布 算法 的 集合 ， 用 于 构建 基于 概率 分 布 的 模型 。 

D layers: 层次 化 的 机 器 学 习 组 件 集合 ， 包 括 构建 模型 常用 的 卷 积 层 、 池 化 层 、 优 化 器 、 

正则 化 函数 等 组 件 。 引 入 粗 粒 度 的 操作 ， 有 利于 用 户 快速 开发 复杂 的 模型 。 

D learn: 深度 学 习 及 机 器 学 习 模 型 训练 工具 类 的 集合 。 提 供 高 层次 API， 以 便 数据 科学 应 
用 的 开发 者 快速 搭建 、 评 价 和 调 优 模型 。 其 中 包含 用 于 搭建 模型 实验 环境 的 Experiment 
和 LearnRunner 抽象 ， 以 及 模型 评价 器 ( estimator ) 和 训练 监督 器 ( monitor ) 等 工具 。 
针对 多 种 深度 学 习 及 机 咽 学 习 算 法 的 模型 训练 需求 实现 了 相应 的 子 类 。 

@ 系统 平台 支持 

口 android: 针对 Android 移动 平台 提供 支持 的 组 件 ， 主 要 包含 一 套 基于 Java 语言 和 JNI 机 
制 开发 的 TensorFlow API 代码 。 与 之 对 应 地 ，tensorflow/examples/android 目录 给 出 了 一 
组 Android 版 TensorFlow 应 用 示例 ， 均 为 基于 神经 网 络 模型 预测 算法 的 图 形 图 像 应 用 。 

口 ios_examples: 面向 iOS 移动 平台 的 示例 应 用 代码 。 由 于 iOS 平 台 上 的 Objective-C++ 语 

言 能 够 方便 地 链接 C++ 库 ，TensorFlow 不 需要 为 iOS 提供 专门 的 适 配 层 API。 

口 pi_examples: 面向 树 莓 派 (Raspberry Pi ) 开发 板 的 示例 应 用 代码 。 树 莓 派 本 质 上 是 一 套 
运行 Linux 操作 系统 的 ARM 架构 计算 机 ， 同 一 般 的 Linux 环境 无 本 质 区 别 ， 因 出 
TensorFlow 不 需要 为 之 提供 专门 的 适 配 层 API。 

@ 专用 硬件 支持 

口 hvx: Hexagon Vector eXtensions (HVX ) 支持 组 件 。HVX 是 高 通 公 司 Hexagon DSP 芯片 
的 向 量 计 算 加 速 特性 ， 主 要 用 于 移动 设备 上 的 图 像 处 理 等 计算 逻辑 加 速 。TensorFlow 的 
Android 版 本 可 以 利用 这 一 组 件 提升 性 能 。 

口 verbs: 针对 高 性 能 计算 环境 中 常用 的 InfiniBand 网 卡 及 RDMA 协 议 的 通信 模块 。 在 具有 
这 类 高 端 网 络 硬件 的 集群 环境 下 ， 该 模块 能 够 发 挥 网 络 带 宽 潜力 ， 提 升 TensorFlow 分 布 
式 运行 模式 的 数据 通信 性 能 。 

@ 编译 构建 脚本 

D cmake: 基于 CMake 工 具 链 的 构建 脚本 ， 主 要 用 于 Windows 系 统 下 的 TensorFlow 编译 构建 。 15 
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口 makefile : 基于 GNU Make 工具 链 的 构建 脚本 ， 主 要 适用 于 编译 目标 平台 为 Android 、iOS 
等 系统 的 场景 。 在 这 类 情况 下 ，Bazel 的 特性 不 能 完全 满足 TensorFlow 的 编译 构建 需求 。 

@ 实用 工具 

口 imperative: 命令 式 编程 封装 模块 。 该 模块 将 TensorFlow API 以 命令 式 编程 模式 导出 ， 允 

许 用 户 编写 带 有 传统 控制 结构 、 能 够 实时 访问 中 间 结 果 的 应 用 程序 。 它 适用 于 交互 式 调 
试 ， 以 及 与 其 他 命令 式 开 发 库 协同 使 用 的 场景 。 

口 tfprof: TensorFlow 性 能 分 析 器 。 它 能 够 以 多 种 不 同 的 视图 剖析 应 用 程序 中 的 操作 执行 时 
间 和 内 存 占用 情况 ， 呈现 检查 点 中 的 张 量 数据 ， 从 而 帮助 开发 者 理解 代码 的 运行 时 行 
为 ， 服 务 于 模型 参数 调 优 、 程 序 性 能 优化 等 场景 。 


2. ecosystem 组 件 


TensorFlow 团队 开放 的 ecosystem 项 目 (https://github.com/tensorflow/ecosystem ) 包含 用 于 构 
建 TensorFlow 与 周边 生态 系统 交互 关系 的 组 件 。 这 些 组 件 与 contrib 组 件 的 显著 差别 在 于 : 其 代 
码 并 不 运行 在 TensorFlow 环境 中 ， 而 是 运行 在 周边 生态 系统 的 软件 环境 中 。ecosystem 项目 目前 
提供 的 组 件 分 为 两 类 : 运行 时 环境 支持 组 件 和 外 部 数据 结构 支持 组 件 。 前 者 适用 于 在 云 计算 、 虚 
拟 化 环境 中 自动 化 部 署 TensorFlow 集群 ， 后 者 服务 于 大 数据 环境 下 不 同 计算 引擎 之 间 的 数据 交 
换 。 现 有 组 件 介 绍 如 下 。 
@ 运行 时 环境 支持 组 件 
口 docker: TensorFlow 的 Docker 容器 配置 文件 ， 包 括 在 容器 内 安装 HDFS 的 脚本 。 用 来 基 
于 Docker 镜像 快捷 部 署 独立 的 TensorFlow 运行 环境 。 
口 kubernetes: 针对 TensorFlow 作业 的 Jinja 模板 文件 ， 用 于 在 Kubernetes 集群 环境 中 以 容 
从 方式 启动 和 管理 TensorFlow 作业 。 
口 marathon: 针对 TensorFlow 作业 的 另 一 种 Jinja 模板 文件 ， 用 于 在 Marathon ( DC/OS ) 集 
群 环境 中 以 容器 方式 启动 和 管理 TensorFlow 作业 。 
@ 外 部 数据 结构 支持 组 件 
口 hadoop: 该 模块 是 一 种 适用 于 Hadoop 和 Spark 的 Java 开发 库 ， 其 功能 是 将 TensorFlow 的 
TFRecords 数 据 格 式 作为 Hadoop 和 Spark 的 输入 /输出 数据 格式 ( InputFormat/OutputFormat ) 
使 用 。 
口 spark: 该 模块 实现 了 TensorFlow TFRecords 与 Spark DataFrame 两 种 数据 格式 的 相互 转换 
功能 。 它 使 用 Scala 语言 编写 ， 可 以 在 Spark Shell 或 Spark 应 用 程序 中 使 用 。 


3. TensorFlow 团队 的 其 他 项 目 


除了 TensorFlow 和 ecosystem 外 ，TensorFlow 团队 还 在 GitHub 上 开放 了 其 他 一 些 项 目 。 这 
些 项 目 大 多 来 自 Google 公司 ， 是 TensorFlow 官方 开发 者 贡献 的 周边 项 目 ， 涉 及 算法 模型 集 
(models 、tensor2tensor )、 服 务 化 工具 ( serving )、 动态 图 计算 库 (fold )、 基准 测试 框架 ( benchmarks )、 
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可 视 化 平台 (playground )、 编 程 语言 接口 (haskell、rust )、 研 究 型 应 用 ( deepmath ) 和 创意 类 应 

用 (magenta ) 等 。 部 分 项 目 已 在 之 前 章节 中 说 过 ， 这 里 简单 介绍 其 他 几 个 有 特色 的 项 目 。 

口 benchmarks: TensorFlow 的 基准 测试 框架 ， 提 供 多 种 经 典 CNN 模型 的 参考 实现 代码 ， 
以 及 基于 Kubernetes 的 容器 化 分 布 式 测试 脚本 ， 用 于 收集 、 呈 现 和 分 析 深 度 学 习 平 台 的 
运行 时 性 能 。 

口 fold: 该 项 目 用 于 在 TensorFlow 平 台 上 实现 动态 图 计算 。 它 基于 Dynamic Batching 算 法 ， 

能 够 使 用 TensorFlow 固有 的 静态 图 计算 引擎 高 效 地 模拟 动态 图 计算 语义 ， 从 而 提供 灵活 
的 模型 构建 能 力 。 诸 如 TreeLSTM 等 数据 流 图 构建 这 程 依赖 于 输入 数据 的 模型 可 以 通过 
Fold 完美 实现 。 

口 magenta: 一 套 基 于 神经 网 络 的 人 工 智 能 作曲 系统 ， 它 展示 了 TensorFlow 在 艺术 创作 方 

面 的 应 用 前 景 。 

口 playground: 基于 Web 的 深度 学 习 交 互 式 可 视 化 展示 平台 ， 用 于 向 初学 者 直观 演示 神经 
网 络 模型 的 工作 原理 。 读 者 亦 可 直接 访问 TensorFlow 官网 部 署 的 playground 环境 一 一 
http://playground.tensorflow.org。 

口 tensor2tensor : Google Brain 团队 推出 的 模块 化 、 可 扩展 的 深度 学 习 库 ， 包 含 
Transformer 、SliceNet 等 多 种 新 近 发 布 的 网 络 模型 ， 以 及 搭建 训练 系统 所 需 的 若干 工具 
组 件 。 该 项 目 适用 于 机 器 翻译 、 图 像 信息 描述 等 多 个 应 用 领域 ， 有 助 于 工业 界 快速 应 用 
Google 的 研究 成 果 。 

Google 公司 对 TensorFlow 开源 生态 系统 的 贡献 为 第 三 方 开发 者 做 出 了 表率 。 关 注 Google 

公司 ， 特 别 是 TensorFlow 团队 的 新 兴 开 源 项 目 ， 是 了 解 机 需 学 习 、 深 度 学 习 领 域 发 展 动向 的 渠 

道 之 一 。 


15.1.2 ”第 三 方 项 目 


以 Apache License 开源 的 TensorFlow 在 商业 使 用 和 二 次 发 布 方面 的 限制 很 少 , 因此 第 三 方 复 
刻 和 衍生 开发 的 版 本 众多 ， 这 些 版 本 通常 会 对 TensorFlow 进行 针对 性 的 改进 。 同 时 ， 第 三 方 为 
满足 自身 或 市 场 需求 而 开发 的 周边 项 目 也 是 TensorFlow 生态 环境 的 重要 组 成 部 分 。 这 些 项 目 不 
仅 包 含 软件 产品 ， 也 包含 可 与 TensorFlow 协同 工作 的 硬件 产品 。 

在 商业 公司 方面 ，TensorFlow 官方 网 站 提供 了 一 组 使 用 TensorFlow 的 公司 列表 。 事 实 上 ， 
这 不 仅 是 一 个 用 户 列表 ， 这 些 榜 上 有 名 的 公司 或 多 或 少 也 为 TensorFlow 生态 系统 建设 作 过 贡献 。 
例如 ，eBay 公司 开源 了 基于 TensorFlow 的 Sequence-Semantic-Embedding 自然 语言 处 理工 具 集 ， 
IBM 的 PowerAI 机 器 学 习 系 统 将 TensorFlow 移植 到 了 Power 架构 服务 器 ，Intel 的 神经 网 络 处 理 
器 能 够 为 TensorFlow 平台 提供 加 速 支 持 ， 小 米 科 技 的 工程 师 也 为 TensorFlow 贡献 过 代码 和 应 用 
案例 。 


在 开源 社区 方面 ，TensorFlow 官方 并 未 专门 提供 第 三 方 项 目 列表 , 不 过 有 不 少 热 心 人 士 汇总 


hl 
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过 TensorFlow 相关 项 目的 信息 , 其 中 较为 有 名 的 是 Awesome TensorFlow 项 目 (https://github.com/ 
jtoy/awesome-tensorflow )。 该 页 面 中 的 Models/Projects 、Libraries 分 类 收集 了 若干 活跃 度 较 高 的 
第 三 方 项 目 , 读者 可 以 从 中 检索 自己 感 兴趣 的 关键 词 。 本 章 后 面 将 介绍 其 中 几 个 具有 代表 性 的 软 
硬件 项 目 。 


15.2 ”深度 神经 网 络 库 Keras 


Keras ( https://keras.io ) 是 一 套 抽象 层次 高 且 极 度 模块 化 的 深度 神经 网 络 API。 它 的 设计 目标 
是 尽量 减少 从 一 个 好 想法 到 实验 结果 的 时 间 , 由 在 为 算法 工程 师 或 研究 人 员 提 供 快速 验证 模型 效 
果 的 能 力 。Keras 由 Python 语言 编写 而 成 ， 它 提供 一 套 经 过 统一 封装 的 API， 并 以 TensorFlow 或 
Theano 作为 后 端的 计算 引擎 。 自 2015 年 创立 项 目 至 今 ， 从 用 户 数量 和 关注 度 的 角度 看 ，Keras 
已 成 为 全 球 最 受 欢迎 的 深度 学 习 开源 项 目 之 一 。 


15.2.1 概述 


原生 TensorFlow API 以 灵活 性 和 多 样 性 见长 , 但 是 对 于 算法 工程 师 或 研究 人 员 来 说 , 其 学 习 
成 本 和 编程 门槛 较 高 。 而 Keras 以 其 用 户 友 好 和 快速 的 原型 设计 能 力 吸引 了 大 量 用 户 。 它 提供 
CNN 和 RNN 等 网 络 ， 能 够 无 颖 运行 在 CPU 和 GPU 设备 上 上。 同时， 其 API 设 计 更 加 简单 易 用 ， 
兼容 Python 2.7 至 Python 3.6 的 所 有 版 本 。 


相 比 TensorFlow 原生 API，Keras 具有 以 下 优点 。 


口 用 户 友好 : Keras 将 用 户 体验 放 到 首位 ， 在 参考 了 大 量 深度 学 习 库 的 最 佳 实践 和 常见 用 例 
的 基础 上 ， 总 结 出 一 套 简 洁 而 统一 的 API， 最 大 可 能 地 减少 用 户 的 学 习 成 本 和 编程 门槛 。 
同时 ，Keras 也 提供 了 清晰 和 简便 的 bug 反 馈 机 制 ， 利 用 社区 的 力量 修正 错误 和 改进 不 足 。 
口 模块 化 : 深度 神经 网 络 模型 可 以 简单 理解 为 一 系列 神经 网 络 的 有 序 堆 县 或 一 幅 具 有 拓扑 
结构 的 数据 流 图 。Keras 内 置 了 大 量 神经 网 络 模块 ， 包 括 但 不 限于 卷 积 层 、 池 化 层 、 循 环 
层 、 舱 入 层 、 激 活 层 、 正 则 层 等 。 用 户 通 过 模块 的 自由 组 合 与 堆 匡 , 便 可 快速 构建 出 自 
己 的 深度 神经 网 络 模 型 。 
口 扩展 方便 : 在 Keras 中 自 定 义 新 模块 是 一 件 非 常 简单 的 工作 ， 只 需要 参考 现 有 的 模块 设 
计 新 的 类 或 函数 即 可 。 这 使 得 算法 研究 人 员 能 够 基于 Keras 便捷 地 开展 更 加 先进 和 个 性 
化 的 研究 。 
口 编程 简单 : Keras 完美 支持 Python 语言 。 用 户 无 需 额 外 导入 模型 配置 文件 ， 直 接 使 用 
Python 即 可 完成 算法 模型 的 开发 和 微调 等 工作 。 
Keras 的 主要 优势 是 提供 了 面向 对 象 的 编程 接口 ， 有 效 缓解 了 用 户 编写 神经 网 络 模型 的 复杂 
度 ， 降 低 了 深度 学 习 的 编程 门槛 ， 加 速 了 深度 学 习 应 用 的 落地 。 但 是 ，Keras 与 TensorFlow 原生 
API 相 比 也 有 不 足 ， 主 要 体现 在 以 下 几 点 。 
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口 不 支持 分 布 式 模 型 : Keras 为 了 解 耦 后 端 引擎 ， 自 己 定 义 了 一 套 优化 器 ， 如 SGD 、 
RMSprop 等 。 因 为 它 没 有 继承 和 封装 TensorFlow 的 优化 器 ， 所 以 无 法 使 用 TensorFlow 为 
分 布 式 模型 设计 的 同步 优化 器 。 这 导致 用 户 无 法 使 用 Keras 编写 分 布 式 模型 。 这 一 问题 
涉及 TensorFlow 底层 的 分 布 式 设计 ，Keras 短期 内 无 法 解决 。 
口 模块 通用 性 不 足 : Keras 模 块 化 设计 的 通用 性 较 差 ， 只 能 设计 神经 网 络 模型 ， 无 法 编写 传统 
的 机 器 学 习 模 型 ， 如 Logistic 回归 、K-means、 随 机 和 森林、 支持 向 量 机 、 高 斯 混合 模型 等 。 
相 比 之 下 ，TensorFlow 的 contrib 目录 下 早已 接受 了 大 量 传统 机 器 学 习 模 型 的 代码 。 不 过 ， 
近期 已 经 有 人 开始 尝试 使 用 Keras 进行 强化 学 习 的 研究 ，Keras 未 来 的 发 展 仍 值得 期 待 。 
口 编程 语言 支持 有 限 : Keras 在 多 语言 API 的 支持 上 还 不 够 广泛 ， 目 前 仅 文 持 Python 语 言 。 
相 比 之 下 ，TensorFlow 官方 已 经 发 布 了 Python 、C++、Go 和 Java 等 语言 的 API。 
从 TensorFlow 1.2 开始 ，Keras 合 人 了 contrib 目录 ， 成 为 TensorFlow 发 行 版 的 一 部 分 。 这 为 
用 户 带 来 两 个 好 处 : 其 一 , 用户 再 也 不 用 分 别 安装 TensorFlow 和 Keras 软件 包 ; 其 二 ,用 户 不 用 担 
心 两 者 的 版 本 适 配 问题 。 考 庸 置疑， 这 对 于 TensorFlow 和 Keras 的 用 户 来 说 都 是 利好 消息 。 这 一 决 
定 将 会 进一步 扩大 两 者 的 用 户 数量 ， 加 深 两 个 社区 的 互动 ， 补 齐 TensorFlow 原生 API 难 上 手 的 短 
板 。 同 时 ， 这 也 表明 TensorFlow 团队 完全 肯定 了 Keras 在 TensorFlow 生态 圈 建 设 上 的 贡献 。 


15.2.2 ”模型 概述 
Keras 提供 两 种 模型 范式 ， 顺 序 ( sequential ) 模型 和 函数 式 模型 ( model/functional API )。 


口 顺序 模型 : 一 系列 神经 网 络 层 的 线性 堆 琶 ， 适 用 于 单 和 输出 的 线性 神经 网 络 模型 。 它 是 函 
数 式 模型 的 特殊 形式 。 

D 函数 式 模型 : 符合 用 户 输入 输出 定义 且 极 易 重 用 的 模型 ,适用 于 多 输入 多 输出 神经 网 络 
模型 。 


因为 顺序 模型 是 函数 式 模型 的 特殊 形式 ， 其 实现 也 基于 函数 式 模型 的 抽象 ， 所 以 两 种 模型 具 
有 一 些 公共 方法 ， 如 表 15-1 所 示 。 


表 15-1 Keras 两 种 模型 的 公共 方法 
方法 名 称 功能 说 明 
本 印 模型 汇总 信息 
可 包含 模型 配置 信息 的 Python 字典 
居 名 称 或 索引 获取 网 络 层 对 象 
可 模型 权重 值 ， 数 据 类 型 为 NumPy 数组 
居 NumPy 数组 ， 设 置 模型 权重 值 ， 两 者 的 形状 必须 相同 
可 仅 包 含 模型 网 络 结构 的 JSON 字符 串 ， 利 用 该 字符 串 可 重 构 模型 
可 仅 包 含 模 型 网 络 结构 的 YAML 字符 串 ， 利 用 该 字符 串 可 重 构 模型 
模型 权重 值 保存 到 指定 路 径 ， 保 存 的 文件 类 型 为 HDF5 
首 定 HDF5 文件 加 载 模 型 权重 值 到 当前 模型 
注 : 表 中 的 model 表示 顺序 模型 和 函数 式 模型 的 实例 。 


ot 


model .summary 


model.get config 


model.get_ layer 


model.get weights 


model.set weights 


model.to_ json 


model.to yaml 


model .save weights 


model.1oad weights 
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Keras 模型 的 典型 使 用 步骤 为 : 

(1) 定义 神经 网 络 结构 ， 创 建 模型 ; 

(2) 配置 优化 右 、 损 失 函 数 和 度量 指标 ， 编 译 模 型 ; 
(3) 填充 数据 和 标签 ， 训 练 模型 。 


15.2.3 ”顺序 模型 


Keras 顺序 模型 是 一 系列 神经 网 络 层 的 线性 堆 苹 ,适用 于 单 输 出 的 线性 神经 网 络 模 型 。 它 是 
函数 式 模型 的 特殊 形式 。 利 用 Keras 内 置 的 神经 网 络 层 ， 用 户 可 以 快速 创建 和 训练 顺序 模型 。 如 
果 想 要 使 用 TensorFlow 原生 API 实现 相同 的 功能 ， 其 编程 复杂 度 可 能 更 高 。 

下 面 我 们 详细 介绍 顺序 模型 的 3 个 典型 使 用 步 又 : 

(1) 创建 模型 ; 

(2) 编译 模型 ; 

(3) 训练 模型 。 

1. 创建 模型 

keras .models.Sequential 是 Keras 的 顺序 模型 类 , 它 的 构造 方法 接受 的 输入 参数 是 表示 模 
型 网 络 结构 的 列表 。 表 中 元 素 保存 的 是 有 序 的 、 任 意 类 型 的 网 络 层 , 用 户 需 要 确保 各 网 络 层 之 间 
输入 和 输出 张 量 的 形状 合法 。Keras 提供 两 种 创建 顺序 模型 的 方法 : 一 种 是 在 创建 顺序 模型 实例 
时 ,通过 输入 参数 指定 所 有 网 络 层 ; 另 一 种 是 先 实 例 化 顺序 模型 ， 然 后 依次 添加 各 网 络 层 。 下 面 
我 们 以 两 层 全 连接 网 络 为 例 ， 分 别 使 用 这 两 种 方法 创建 模型 。 

方法 一 : 首先 , 从 keras.models 模块 导入 顺序 模型 类 sequential。 然后 , 从 keras.layers 
模块 导入 全 连接 层 Dense 和 激活 层 Activation。 接 着 ,使 用 Sequential 类 创建 顺序 模型 实例 
model， 并 设置 其 为 两 层 全 连接 网 络 。 同 时 ,分 别 设置 两 个 全 连接 层 的 激活 函数 为 relu 和 
softmax。 代 码 如 下 所 示 : 


from keras.models import Sequential 
from keras.layers import Dense, Activation 
# 创建 模型 时 指定 所 有 网 络 层 
model = Sequential([ 
Dense(32，units=784)， 
Activation('relu'), 
Dense(16)， 
Activation('softmax'), 


]) 
方法 二 : 首先 ， 导 入 相应 的 类 。 然 后 ， 创 建 顺 序 模 型 实例 model。 接 着 ,调用 model1.add 
方法 依次 添加 各 层 网 络 。 最 后 ， 成 功 创建 出 与 方法 一 同样 的 模型 。 代 码 如 下 所 示 : 
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from keras.models import Sequential 

from keras.layers import Dense, Activation 
# 用 model.add 方法 创建 方法 一 定义 的 顺序 模型 
model = Sequential() 

model.add(Dense(32, input_shape=(784,))) 
model.add(Activation('relu')) 
model.add(Dense(10)) 
model.add(Activation('softmax')) 


2. 编译 模型 


用 户 需 要 调用 model. compile 方法 为 模型 配置 优化 器 、 损 失 函 数 和 度量 指标 。 其 中 ,优化 
器 和 损失 函数 是 编译 模型 必需 的 参数 ， 度 量 指标 是 可 选 参数 。 用 户 可 以 使 用 Keras 内 置 的 优化 
器 、 损 失 函 数 和 度量 指标 ， 求 自 定义 。 如 果 想 要 自 定义 度量 指标 ， 那 么 需要 
创建 对 应 的 指标 评估 方法 。 下 面 我 们 以 典型 的 二 分 类 和 多 分 类 问题 为 例 ， 展 示 编 译 Keras 顺序 
模型 的 方法 : 


import keras.backend as K 


入 


def correct prediction(y_label, y_prediction): 
return K.mean(y_prediction) 
# 二 分 类 问题 ,使 用 自 定义 的 correct_prediction 评估 方法 
model.compile(optimizer="'rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy', correct prediction]) 
# 二 分 类 问题 ， 使 用 内 置 的 准确 率 作 为 度量 指标 
model.compile(optimizer="'rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy' ]) 
多 分 类 问题 ， 使 用 内 置 的 准确 率 作 为 度量 指标 
model.compile(optimizer="'rmsprop', 
loss='categorical crossentropy', 
metrics=["'accuracy' ]) 


3. 训练 模型 


用 户 需 要 调用 model .fit 方法 训练 模型 。 其 中 ， 填 充 的 数据 和 标签 均 为 numpy 数组 类 
下 面 的 代码 展示 了 二 分 类 模型 的 训练 流程 : 


# 创建 顺序 模型 

model = Sequential() 

model.add(Dense(32, activation='relyu', input_dim=1608)) 

model.add(Dense(1, activation="'sigmoid')) 

# 编译 模型 ， 设 置 训 练 指标 为 准确 率 (预定 义 指 标 ) 

model.compile(optimizer="'rmsprop', 
loss='binary_crossentropy', 
metrics=["'accuracy' ]) 

# 生成 哑 (dummy) 数据 

import numpy as np 

data = np.random.random((160606, 1060)) 

labels = np.random.randint(2, size=(16600, 1)) 

# 设置 epochs 为 18， 批 数据 大 小 为 32， 开 始 训练 

model.fit(data, labels, epochs=106, batch_size=32) 


1 
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综 上 ,使 用 Keras 训练 模型 的 过 程 比 使 用 TensorFlow 原生 API 更 加 简单 。Keras 封装 了 模型 
以 外 的 绝 大 多 数 编程 接口 ， 使 得 用 户 更 加 专注 于 模型 本 身 的 设计 和 训练 过 程 。 


15.2.4 ”函数 式 模型 


keras.models.Model 是 Keras 的 函数 式 模 型 类 。 用 户 只 要 指定 模型 的 输入 和 输出 ， 即 可 快 
速 创 建 函 数 式 模型 。 同 时 ， 这 个 类 还 支持 多 输入 和 多 输出 。 因 此 ， 相 比 顺序 模型 ， 它 的 灵活 性 和 
通用 性 更 好 。 Model 的 构造 方法 接受 两 个 输入 参数 一 一 inputs 和 outputs, 分 别 表示 模型 的 输入 
和 输出 。 我 们 可 以 使 用 以 下 代码 创建 一 个 单 输入 单 输出 的 函数 式 模型 

from keras.models import Model 

from keras.layers import Input, Dense 

a = Input(shape=(32, )) 


b = Dense(32)(a) 
model = Model(inputs=a, outputs=b) 


如 果 想 要 创建 多 输入 多 输出 的 函数 式 模型 ， 就 需要 传 入 相应 的 输入 输出 列表 。 例 如 : 

model = Model(inputs=[a1l, a2], outputs=[b1, b3, b3]) 

函数 式 模型 带 来 的 好 处 主要 有 两 点 : 方便 复 用 模型 、 灵 活 构建 模型 。 下面 我 们 通过 代码 示例 ， 
在 介绍 函数 式 模型 使 用 流程 的 同时 对 这 两 个 好 处 进行 说 明 。 

1. 方便 复 用 模型 

当 用 户 调用 预 训练 的 模型 时 , 重用 的 不 仅 是 模型 的 网 络 结构 , 而 且 包 括 模型 的 参数 值 。 因 此 ， 
用 户 只 需要 传人 符合 模型 定义 的 输入 数据 , 就 可 以 得 到 符合 预期 的 输出 结果 , 这 极 大 地 方便 了 模 
型 的 微调 和 二 次 开发 。 

下 面 的 代码 实现 了 解决 图 像 分 类 问题 的 全 连接 网 络 。 首 先 ， 我们 定义 模型 的 输入 inputs 和 
输出 predictions。 然 后 ， 编 译 模型 ， 并 设置 优化 器 为 rmsprop。 接 下 来 ,填充 数据 和 标签 ， 开 
台 训 练 模型 。 


from keras.layers import Input, Dense 
from keras.models import Model 


inputs = Input(shape=(784,)) 


x = Dense(64, activation='relu')(inputs) 
x = Dense(64, activation='relu')(x) 
predictions = Dense(1060, activation="softmax')(x) 


model = Model(inputs=inputs, outputs=predictions) 
model.compile(optimizer="'rmsprop', 
loss='categorical crossentropy', 
metrics=[ "accuracy ']) 
model.fit(data, labels) 


假设 经 过 多 轮 和 迭代 训 练 之 后 ,我 们 已 经 得 到 一 个 准确 率 较 高 的 图 像 分 类 模型 。 现 在 ， 如 果 需 
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要 创建 一 个 视频 分 类 模型 ， 就 可 以 复 用 前 一 模型 。 事 实 上 ， 只 要 对 图 像 分 类 模型 稍 作 修改 ， 即 可 
得 到 视频 分 类 模型 。 下 面 的 代码 能 够 处 理 一 段 包 含 1000 帧 图 像 的 视频 ， 这 一 模型 将 会 输出 每 一 
帧 图 像 所 属 的 类 别 : 

from keras.layers import TimeDistributed 

# 设置 输入 张 量 形状 为 (168686，784) 

input_sequences = Input(shape=(160606, 784)) 

# 将 图 像 分 类 模型 应 用 到 输入 队列 中 的 每 一 张 图 片 ， 使 其 能 够 处 理 视频 分 类 问题 

processed_sequences = TimeDistributed(model)(input_sequences) 

2. 灵活 构建 模型 

函数 式 模型 的 设计 方便 用 户 快 速 灵 活 地 构建 模型 , 这 使 得 处 理 大 量 错综复杂 的 数据 流 成 为 可 能 。 

假设 我 们 要 设计 一 个 预测 Twitter 推 文 被 转发 和 点 赞 次 数 的 模型 。 它 的 主要 输入 是 推 文 标题 ， 
即 一 个 词 向 量 ; 辅助 输入 是 推 文 发 布 日 期 等 附加 信息 。 那 么 ， 模 型 的 损失 函数 将 由 两 部 分 组 成 : 
主 损失 函数 一 一 评估 基于 推 文 标题 和 发 布 日 期 等 辅助 信息 的 预测 结果 ; 辅助 损失 函数 一 一 评估 仅 
基于 推 文 标题 本 身 的 预测 结果 。 辅助 损失 函数 旨 在 摆脱 主 损失 值 的 干扰 , 使 我 们 能 够 平滑 地 训练 
能 入 层 和 LSTM 层 的 模型 参数 。 对 于 深度 神经 网 络 模型 来 说 , 尽早 使 用 主 损失 函数 有 利于 模型 的 
正则 化 。 

该 模型 的 拓扑 结构 如 图 15-1 所 示 。 首 先 , 输入 文本 格式 的 推 文 。 然后， 添加 般 入 层 ， 目 的 是 用 
词 向 量 租 和 表示 对 应 的 自然 语言 。 接 着 ， 加 入 LSTM 网 络 层 ， 期 望 在 向 量 空 间 中 学 到 表达 能 力 更 
强 、 更 准确 的 语言 模型 , 使 得 词 向 量 能 够 尽 可 能 还 原 对 应 的 推广 标题。 最 后 , 合并 推 文 标题 和 辅助 
输入 , 基于 主 损 失 值 和 辅助 损失 值 的 加 权 结 果 , 使 用 一 个 全 连接 层 拟 合 预 测 函 数 , 并 得 到 预测 结果 。 


main_input(nputLayen) 


embedding(Embedding) 


lstm (LST™M) 


图 15-1 ”预测 Twitter 推 文 转发 和 点 赞 次 数 模型 的 拓扑 结构 


下 面 我 们 用 Keras 来 实现 如 图 15-1 所 示 的 预测 模型 。 该 模型 的 主要 输入 ( main_input ) 是 
推 文 标题 , 即 长 度 不 超过 100 的 One-Hot 编 码 整数 序列 ,其 中 ,每 个 整数 的 取 值 范围 都 是 [1,10000]。 
换 句 话说 ， 单 词 表 的 词汇 数 为 10000。 将 One-Hot 编码 的 推 文 标题 序列 输入 嵌 人 层 重新 编码 ， 输 
出 512 维 的 稠密 词 向 量 (x )。 


aux_input(InputLayer) 


aux_output(Dense) 
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from keras.layers import Input, Embedding, LSTM, Dense 
from keras.models import Model 


main_input = Input(shape=(18608,), dtype='int32', name='main_input') 

x = Embedding(output_dim=512，input_dim=16666，input_length=166)(main_input) 

将 骨 入 层 输出 的 词 向 量 传 入 LSTM 层 ， 学 习 能 够 表达 整个 推 文 标题 语义 的 词 向 量 
(lstm_out )。 通 过 优化 辅助 损失 函数 ， 独 立地 训练 散人 入 层 和 LSTM 层 的 参数 ; 通过 logistic 回归 
层 得 到 辅助 输出 ( aux_output )。 相 关 代 码 如 下 : 


lstm out = LSTM(32)(x) 
aux_output = Dense(1, activation="'sigmoid', name="'aux_output')(lstm _ out) 


然后 , 将 辅助 输入 (aux_input ) 的 推 文 发 布 日 期 和 LSTM 层 输出 的 词 向 量 (lstm_out ) 连 
接 起 来 ， 组 成 完整 的 输入 词 向 量 (x )。 将 其 输入 一 个 全 连接 层 ， 最 终 同样 通过 logistic 回归 得 到 
主要 输出 (main_output )。 相 关 代 码 如 下 ; 


aux_input = Input(shape=(5,)，name='aux_input ') 

x = keras.layers.concatenate([lstm out, auxiliary_input]) 

x = Dense(64, activation="'relu')(x) 

main_output = Dense(1, activation='sigmoid', name='"'main_ output')(x) 


至 此 ,我 们 已 经 创建 了 该 神经 网 络 模型 的 所 有 模块 。 层 与 层 之 间 的 张 量 形状 由 Keras 自动 推 
断 ， 用 户 只 需 定义 清楚 输入 和 输出 即 可 创建 该 模型 的 实例 : 

model = Model(inputs=[main_input, aux_input], outputs=[main_output, aux_output]) 
编译 模型 时 ,我 们 通过 1oss_weights 参数 将 主 损失 值 和 辅助 损失 值 分 别 初始 化 为 1.0 和 0.2。 
同时 ,这 里 只 传人 了 一 个 损失 函数 binary_crossentropy， 这 表明 我 们 的 主 损失 函数 和 辅助 
损失 函数 都 将 使 用 binary_crossentropy。 相 关 代 码 如 下 : 

model.compile(optimizer='rmsprop', loss="'binary_crossentropy', loss weights=[1., 60.2]) 

最 后 ， 填 充 训 练 数 据 和 标签 ， 开 始 训 练 模型 : 

model.fit([headline data, additional data], [labels, labels], epochs=506, batch_ size=32) 

综 上 可 以 看 出 , 使 用 Keras 的 函数 式 模型 定义 多 输入 多 输出 的 复杂 神经 网 络 模型 是 非常 便 搞 
和 灵活 的 。 利 用 Keras 内 置 的 大 量 网 络 层 、 激 活 函 数 、 损 失 函 数 、 优 化 右 等 模块 ， 可 以 大 幅 提 升 
算法 工程 师 和 研究 人 员 验 证 原型 的 效率 。 


人 
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Kubernetes (https:/kubernetes,io ) 是 Google 公司 于 2014 年 开源 的 容器 集群 管理 系统 。 它 继 
承 了 Google 公司 多 年 来 在 生产 环境 中 管理 大 规模 容器 应 用 的 经 验 ， 发 扬 了 Google 内 部 容器 管理 
系统 Borg 的 设计 理念 和 先进 思想 。Kubernetes 一 经 推出 ， 便 受到 了 全 球 云 计算 领域 从 业者 的 广 
泛 欢迎 。 时 至 今日 ，Kubernetes 已 经 成 为 容器 生态 系统 的 重要 组 件 和 容器 编排 领域 的 事实 标准 。 
其 推崇 的 像 “牲畜 ”而 非 “ 宠 物 ” 一 样 管理 服务 的 理念 ,如今 也 成 为 微服 务 架构 设计 的 指导 思想 。 
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TensorFlow 作为 Google 公司 在 人 工 智 能 领域 的 拳头 产品 ， 除 了 满足 全 球 算 法 工程 师 的 科研 
需求 外 ,还 需要 考虑 在 生产 环境 中 解决 实际 问题 。 从 实验 室 原型 到 商用 产品 ，TensorFlow 自身 还 
存在 两 点 不 足 : 其 一 ， 直 接 使 用 TensorFlow Serving 挂 载 模 型 提供 推理 服务 的 方式 无 法 应 对 高 并 
发 访问 。 人 工 添 加 负载 均衡 的 成 本 较 高 。 访问 流量 降低 时 无 法 迅速 回收 资源 ,导致 资源 利用 率 降 
低 。 其 二 ， 分 布 式 训练 作业 需要 用 户 在 每 台 机 器 上 手动 启动 TensorFlow 进程 ， 并 且 显 式 指定 每 
一 台 机 器 的 主机 地 址 和 端口 号 。 当 TensorFlow 集群 规模 增 大 时 ， 这 种 方式 的 易 用 性 差 ， 用 户 体 
验 十 分 不 友好 。 

如 果 能 够 将 TensorFlow 作业 运行 在 容器 中 ,利用 Kubernetes 的 容 需 编排 能 力 管 理 TensorFlow 
作业 ， 就 可 以 显著 改善 这 两 点 不 足 。 下 面 我 们 就 以 TensorFlow 推理 服务 和 分 布 式 训练 作业 为 例 ， 
介绍 基于 Kubernetes 的 解决 方案 。 


1. 使 用 Kubernetes 管理 TensorFlow 推理 服务 


我 们 认为 TensorFlow 的 推理 服务 与 长 周期 的 Web 服务 类 似 。 在 引入 容器 管理 方案 时 ， 需 要 
重点 考查 方案 提供 的 可 用 性 和 可 伸缩 性 是 否 能 够 达到 生产 环境 的 需求 。 在 Kubernetes 的 世界 里 ， 
一 切 服 务 都 运行 在 容器 中 。 最 简单 的 容器 组 抽象 是 Pod， 一 个 Pod 中 支持 同时 运行 多 个 容器 。 


Kubernetes 的 Service 抽象 提供 反 向 代理 的 能 力 ， 它 负责 将 网 络 上 的 用 户 请 求 转发 给 Pod 中 
运行 的 服务 ， 并 将 服务 的 啊 应 返回 给 网 络 上 的 用 户 。 在 TensorFlow 推理 服务 的 用 例 中 ，Service 
管理 的 服务 就 是 TensorFlow Serving。Service 通过 识别 不 同 Pod 的 标签 ( 容 需 名称、 类 型 和 模型 
名 称 等 ) 来 租 选 提供 对 应 服务 的 Pod。 同 时 ， 它 也 提供 简单 的 负载 均 衔 能 力 。 当 有 多 个 Pod 副本 
提供 相同 服务 时 ，Service 会 对 用 户 的 请 求 进行 负载 分 发 ， 以 确保 所 有 请 求 都 能 够 得 到 快速 响应 。 
当 请 求 数量 较 大 导致 单个 Service 无 法 处 理 时 ,Kubernetes 支持 在 内 部 运行 独立 的 Nginx 容器 以 提 
供 负 载 均衡 服务 。 当 请 求 的 数量 上 升 时 , 为 了 能 够 持续 提供 稳定 的 服务 , 需要 增加 后 台 服 务 的 数 
量 。 只 要 服务 本 身 是 无 状态 的 (TensorFlow Serving 即 属于 这 种 情况 )， 在 使 用 Kuberentes 实现 可 
伸缩 性 时 就 不 需要 对 服务 做 任何 修改 。 

如 果 我 们 需要 在 服务 运行 时 增 减 Service 代理 的 后 台 Pod 数量 ,那么 可 以 选择 使 用 Kubernetes 
的 高 级 抽象 一 一 ReplicaSet 和 Deployment。ReplicaSet 是 相同 Pod 的 副本 集合 ，Deployment 为 
ReplicaSet 的 升级 和 管理 提供 了 一 套 描述 语法 。 用 户 只 需要 使 用 Kubernetes 的 命令 行 工 具 kubect1 
描述 期 望 服务 达到 的 状态 , Kubernetes 在 内 部 就 可 以 完成 资源 的 调度 工作 。 因此, 利用 ReplicaSet 
和 Deployment 可 以 实现 服务 的 弹性 伸缩 。 


图 15-2 展示 了 使 用 Kubernetes 管理 TensorFlow 推理 服务 的 一 个 实例 。 我 们 在 Kubernetes 集 
群 中 部 署 了 两 套 TensorFlow 推理 服务 A 和 B, 分 四 Service A 和 Service B 代理 用 户 请 求 。Service 
A 负责 将 网 络 上 的 用 户 请 求 转发 给 它 代理 的 两 个 Pod， 这 两 个 Pod 均 属于 ReplicasSet A。 如 果 服 
务 A 的 请 求 数量 上 升 , 我 们 可 以 调用 kubect1l scale deployment replicaset-a --replicas=16 
命令 将 副本 数量 扩容 为 10 个 。 类 似 地 , 我 们 也 可 以 完成 服务 的 缩 容 操作 。 不 难 发 现 , 使 用 Kubemetes 
管理 TensorFlow 推理 服务 是 非常 方便 的 。 
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No Node 
ReplicaSetB(Pod0) 
TensorFlow App TensorFlow App TensorFlow App 
TF Serving TF Serving TF Serving 


图 15-2” ”TensorFlow 推理 服务 在 Kubernetes 集群 中 的 逻辑 部 署 图 


2. 使 用 Kubernetes 管理 TensorFlow 分 布 式 训练 作业 

TensorFlow 分 布 式 训练 作业 的 特征 与 高 性 能 计算 或 大 数据 分 析 系 统 中 的 批 处 理 作业 类 似 。 
TensorFlow 分 布 式 训练 作业 由 多 个 worker 任务 和 多 个 PS 任务 组 成 。worker 任务 负责 模型 参数 和 
对 应 梯度 的 计算 ，PS 任务 负责 模型 参数 的 存储 、 分 发 和 更 新 。TensorFlow 分 布 式 训练 作业 在 实 
际 使 用 时 有 以 下 4 个 痛 点 。 
D 缺少 统一 资源 调度 。 
D 缺少 统一 任务 启动 。 
口 手动 指定 任务 地 址 。 
口 缺少 统一 资源 回收 。 
针对 TensorFlow 分 布 式 训练 作业 难 使 用 和 难 管理 的 问题 ，TensorFlow 团队 的 ecosystem 项 目 
( https://github.com/tensorflow/ecosystem ) 给 出 了 一 个 相对 合理 的 解决 方案 。 下 面 我 们 略微 改进 此 
方案 ,介绍 如 何 使 用 Kubernetes 解决 上 述 4 个 痛 点 。 


口 Kubernetes 作为 容器 编排 系统 ， 本 身 就 带 有 资源 调度 的 功能 。 因 此 ， 如 果 在 Kubernetes 
集群 中 部 署 和 运行 TensorFlow 分 布 式 训练 作业 ， 那 么 天 然 享受 Kubernetes 的 统一 资源 调 
度 能 力 。 

口 Kubernetes 的 作业 描述 文件 格式 为 YAML ( YAML Ain’t Markup Language ) ， 这 是 一 种 适 
用 于 所 有 编程 语言 的 数据 序列 化 格式 。 我 们 知道 ，worker 任 务 和 PS 任务 仅 通过 启动 参数 区 
分 作业 类 型 和 任务 编号 。 如 果 想 要 统一 启动 一 组 作业 的 所 有 任务 ， 那 么 可 以 使 用 Jinja 模 板 
引擎 泻 染 各 个 任务 对 应 的 YAML 文件 。 这 些 YAML 文件 中 的 差异 项 满足 一 定 规则 ， 这 些 规 
则 可 以 通过 Jinja 模板 引擎 的 语法 进行 描述 。 读 者 可 以 参考 ecosystem 项 目 给 出 的 Jinja 模板 
( https://github.com/tensorflow/ecosystem/blob/master/kubernetes/template.yaml.jinja )。 该 Jinja 
模板 生成 的 YAML 文件 可 经 由 Kubernetes 调用 ， 用 于 启动 TensorFlow 分 布 式 训练 作业 。 
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口 统一 启动 所 有 的 worker 任 务 和 了 PS 任务 后 ， 我 们 还 需要 确保 它们 能 够 相互 通信 。 因 为 我 们 
使 用 Kubernetes 统一 调度 资源 ， 所 以 启动 前 并 不 知道 各 个 任务 会 被 调度 到 哪 台 机 器 运 
行 。 好 在 gRPC 服务 以 URL 作为 入 口 ， 天 然 支持 卫 和 域名 两 种 地 址 形式 。 因 此 ， 我 们 只 
要 在 作业 启动 前 预先 设置 好 所 有 任务 的 gRPC 服务 域名 ， 并 将 域名 绑 定 到 任务 角色 而 非 

具体 的 主机 ， 任 务 在 运行 时 就 能 够 顺利 找到 彼此 。 为 了 对 这 种 动态 绑 定 到 任务 角色 的 域 

名 进行 解析 ， 我 们 需要 使 用 Kubernetes 的 kube-dns 服务 。 这 样 一 来 ， 我 们 不 再 需要 在 启 
动 任务 时 手动 指定 各 个 任务 的 主机 名 或 地 址 。 

口 为 了 能 够 及 时 回收 TensorFlow 分 布 式 训练 作业 占用 的 资源 ， 特 别 是 不 能 自动 结束 的 PS 任 
务 所 占用 的 资源 ， 我 们 可 以 使 用 Kuberetes Dashboard ( https://github.com/kubernetes/ 
dashboard ) 监控 所 有 Pod 的 运行 状态 。 当 我 们 发 现 所 有 worker 任务 都 已 经 运行 结束 时 ， 
就 可 以 调用 kubect1 工具 删除 包括 PS 任务 在 内 的 整个 分 布 式 训练 作业 。 用 户 亦 可 通过 编 
写 脚本 ， 调 用 Kubernetes 的 命令 行 工具 或 API， 将 这 一 过 程 自动 化 。 

综合 以 上 思路 ， 图 15-3 给 出 了 在 Kubernetes 集群 中 部 署 TensorFlow 分 布 式 训练 作业 的 一 个 

实例 。 需 要 注意 的 是 ，ecosystem 项 目 给 出 的 Jinja 模板 将 worker 任务 设置 为 ReplicaSet， 而 我 们 

建议 将 其 设置 为 Pod。 这 是 因为 ReplicaSet 会 始终 保持 运行 状态 ， 即 使 worker 任务 成 功 结束 ,也 


会 被 立即 拉 起 再 次 运行 。 这 使 得 我 们 无 法 轻易 识别 出 已 完成 的 worker 任务 。 


= Service(worker0) 


ReplicaSet(Pod0) 
TensorFlow App TensorFlow App 
S0 


ETCD (Resource PooD) 
图 15-3 TensorFlow 分 布 式 训练 作业 在 Kubernetes 集群 中 的 逻辑 部 署 图 


TensorFlow 与 Kubernetes 的 结合 是 深度 学 习 计算 库 与 分 布 式 容 器 管理 系统 两 个 生态 圈 的 有 机 
结合 。 这 一 结合 既 弥 补 了 计算 库 本 身 在 运行 时 和 服务 管理 方面 的 不 足 ， 又 促进 了 分 布 式 容 器 管理 
系统 在 深度 学 习 应 用 领域 的 发 展 。 目 前 ,国内 外 许多 公司 的 人 工 智 能 公有 云 和 私有 云 服 务 都 选择 
将 Kubernetes 作为 资源 调度 引擎 ， 将 TensorFlow 作为 深度 学 习 计算 库 。 相 信和 随 着 这 一 波 人 工 智 
能 浪潮 的 兴起 ，Kubernetes 社区 与 TensorFlow 社区 的 互动 将 会 更 加 频繁 。 
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15.4 TensorFlow 与 Spark 生态 的 结合 


Apache Spark 作为 一 套 高 性 能 的 分 布 式 大 规模 数据 处 理 框架 , 已 在 大 数据 领域 得 到 了 广泛 的 应 
用 。Spark 的 架构 设计 注重 易 用 性 与 通用 性 ， 因 此 其 生态 系统 也 随 着 计算 模式 的 发 展 变化 而 不 断 壮 
大 。 除了 经 典 的 有 向 无 环 图 ( DAG ) 人 迭代 计算 框架 , Spark 平台 还 支持 接 入 交互 式 处 理 ( Spark SQL )、 
流 计算 ( Streaming )、 机 器 学 习 (MLlib )、 图 计算 ( GraphX )、 统 计 分 析 〈 SparkR ) 等 多 种 模式 的 
计算 引擎 。TensorFlow 等 面向 深度 学 习 的 计算 引擎 同 Spark 结合 自然 成 为 一 个 有 价值 的 工作 方向 。 

相 比 大 数据 生态 中 的 其 他 平台 软件 ，TensorFlow 尚 存在 两 点 不 足 : 其 一 ， 从 Google 内 部 分 
布 式 计 算 框 架 中 剥离 出 来 的 TensorFlow 开源 版 本 核心 组 件 只 是 一 套 开 发 库 和 计算 引擎 ， 尚 缺乏 
系统 而 完善 的 运行 时 管理 机 制 和 透明 的 分 布 式 资源 管理 能 力 。 例如 , 它 没有 提供 作业 和 任务 的 排 
队 调 度 框架 , 其 分 布 式 应 用 也 需要 在 运行 时 显 式 指定 集群 卫 地 址 和 GPU 资源 。 其 二 , TensorFlow 
文 持 的 数据 源 与 输入 、 输 出 数据 结构 并 不 完全 兼容 以 Apache 社区 软件 为 代表 的 大 数据 生态 。 尽 
管 TensorFlow 已 经 支持 HDFS 等 分 布 式 文件 系统 访问 ， 然 而 它 仍 不 能 支持 大 数据 平台 中 的 一 些 
内 存 数据 结构 , 这 对 于 多 种 计算 引擎 协同 处 理 同 一 数据 集 的 应 用 场景 并 不 友好 。TensorFlow 若 能 
与 Spark 对 接 ， 人 恰恰 可 以 通过 Spark 的 资源 调度 框架 和 RDD ( Resilient Distributed Dataset ) 数据 
结构 弥补 这 两 点 不 足 。 

Yahoo! 公 司 的 Big ML 团队 于 2017 年 年 初 开 源 了 TensorFlowOnSpark 项 (https:/github.comy 
yahoo/TensorFlowOnSpark )。 该 项 目 则 在 将 TensorFlow 计算 作业 运行 在 Spark 集群 上 ， 在 调度 和 
数据 两 方面 打通 TensorFlow 与 Spark， 从 而 使 得 Spark 平台 能 够 无 缝 支持 深度 学 习 ， 同 时 提升 
TensorFlow 在 分 布 式 环境 中 的 易 用 性 。 图 15-4 展示 了 TensorFlowOnSpark 及 相关 组 件 在 Spark 集 


群 中 的 部 署 结构 。 


Spark Executor -一 | 
Spark Executor Spark Executor 
TensorFlowApp TensorFlow App 
PS logics Worker logics 
TensorFlow Core TensorFlow Core 
SR 


RDD/HDFS 


图 15-4 TensorFlowOnSpark 及 相关 组 件 在 Spark 集群 中 的 部 署 结构 
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TensorFlowOnSpark 以 Python 语言 实现 , 本 质 上 是 一 套 符合 Spark 应 用 框架 规范 的 Python 开 
发 库 。 基 于 该 库 开 发 的 Python 应 用 程序 可 以 直接 由 Spark 集群 的 Executor 加 载运 行 ， 接 受 Spark 
Driver 的 调度 并 共享 RDD 中 的 数据 。 在 调度 方面 ，TensorFlowOnSpark 提供 对 接 Spark 能 力 的 
TFSparkNode 等 组 件 ,用 于 实现 端口 和 GPU 分配、 任务 启 停 等 功能 ;提供 面向 开发 者 的 TFCluster 
等 编程 抽象 ， 具有 简单 明了 且 与 资源 解 耦 的 接口 ， 用 于 集群 配置 、 模 型 训练 和 推理 等 操作 。 在 数 
据 方 面 ，TensorFlowOnSpark 提供 两 种 提取 训练 和 推理 数据 的 方式 : 使 用 TensorFlow 原生 的 文件 
读 入 接口 与 QueueRunner 机 制 ， 从 HDFS 文件 获取 数据 ; 使 用 TensorFlow 的 feed_dict 机 制 ， 
从 Spark Executor 加 载 的 RDD 中 获得 数据 。 


现 有 的 TensorFlow Python 应 用 程序 需要 少量 修改 ， 以 便 集 成 TensorFlowOnSpark。 修 改 后 的 
程序 可 以 通过 spark-submit 命令 启动 ， 运 行 在 多 种 计算 引擎 共享 的 Spark 集群 中 。TensorFlow 
OnSpark 的 开发 者 给 出 了 MNIST、CIFAR-10、Inception 等 模型 训练 、 推 理 程序 的 修改 示例 ， 体 
现 了 该 框架 的 易 用 性 与 通用 性 。 

除了 TensorFlowOnSpark， 亦 有 其 他 一 些 开 源 项 目 关注 TensorFlow 与 Spark 的 结合 。 


口 Arimo 公司 开源 的 TensorSpark 项 目 (https://github.com/adatao/tensorspark ) 提供 了 一 套 可 运 
行 于 Spark+Yarn 集群 环境 的 分 布 式 模型 训练 框架 。 它 实现 了 一 种 不 同 于 TensorFlow 原生 
分 布 式 模式 的 参数 服务 器 架构 ， 并 提供 了 一 组 典型 模型 的 移植 示例 。 该 项 目 基于 Python 
开发 ， 逻 辑 相 对 简单 ， 适 合 于 二 次 开发 者 学 习 如 何 桥接 TensorFlow 与 Spark 生态 系统 。 

口 TensorFlow ecosystem 子 项 目 之 一 的 spark-tensorflow-connector ( https://github.com/tensorflow/ 
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ecosystem/tree/master/spark/spark-tensorflow-connector ) 聚焦 于 TensorFlow TFRecords 与 
Spark DataFrame 两 种 数据 格式 的 相互 转换 。DataFrame 是 Spark SQL 提供 的 结构 化 数据 编 
程 抽 象 ， 以 命名 列 方式 组 织 分 布 式 数据 集 。 将 其 作为 TensorFlow 的 数据 源 ， 有 利于 数据 
的 流水 线 式 处 理 和 数据 集 的 复 用 。 
口 Databricks 公司 开源 的 TensorFrame 项 目 (https://github.com/databricks/tensorframes ) 则 为 
TensorFlow 提供 直接 操作 DataFrame 数据 格式 的 能 力 。 它 具有 Tensor 一 一 DataFrame 映射 
机 制 ， 支 持 归 约 与 聚合 算法 ， 并 提供 一 套 简单 的 TensorFlow Scala 语言 API， 骨 在 从 数据 
和 编程 层面 连接 两 个 生态 。TensorFrame 的 内 存 计算 机 制 也 是 一 种 遵循 Spark 理念 、 性 能 
优势 明显 的 设计 。 
可 以 预见 , 随 着 应 用 模式 的 扩展 和 数据 规模 的 扩张 ，TensorFlow 等 深度 学 习 计算 引擎 必然 会 
与 Spark 等 大 规模 数据 处 理 平台 发 生 越 来 越 频繁 的 交互 。 数 据 的 量变 终 将 带 来 智能 的 质变 ， 两 个 
生态 的 结合 点 进发 的 火花 值得 相关 研究 者 与 开发 者 密切 关注 。 


15.5 ”TensorFlow 通信 优化 技术 


在 并 行 和 分 布 式 系统 中 , 通信 性 能 是 决定 软件 整体 性 能 的 重要 因素 。TensorFlow 社区 在 不 断 
改善 平台 计算 能 力 的 同时 ,也 不 忘 对 平台 通信 和 能力 进行 优化 , 使 之 高 效 利 用 硬件 带宽 ,降低 消息 
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延迟 ,达到 提升 应 用 执行 速率 和 并 行 加 速 比 、 增 强 软件 可 伸缩 性 的 目标 。TensorFlow 生态 系统 中 
的 通信 优化 技术 既 包括 利用 高 性 能 硬件 特性 加 速 数 据 传输 的 工作 , 也 包括 改进 分 布 式 模型 与 通信 
算法 的 实践 。 我 们 在 13.4 节 中 分 析 了 已 被 TensorFlow 社区 采纳 的 Yahoo! RDMA 通信 模块 , 这 里 
另外 介绍 TensorFlow 生态 中 的 几 项 通信 优化 技术 。 

随 着 数据 和 模型 规模 的 日 益 增 长 , 深度 学 习 应 用 对 硬件 能 力 的 需求 不 断 提高 。 为 了 在 提升 计 
算 能 力 的 同时 尽 可 能 少 地 引入 网 络 通信 开销 ， 很 多 硬件 厂商 力 推 间 服务 器 多 GPU ( 即 “ 单 机 多 
卡 ”) 的 解决 方案 。 对 于 这 种 环境 ,实现 多 GPU 内 存 之 间 的 数据 高 效 传输 是 确保 计算 得 以 线性 加 
速 的 重要 条 件 。 在 高 性 能 计算 领域 广 为 应 用 的 集合 通信 算法 ,如 全 局 归 约 (allreduce )、 全 局 收集 
(allgather )、 广 播 (broadcast )， 很 适合 解决 单机 多 卡 环境 下 的 神经 网 络 参数 归 约 计算 与 跨 设备 交 
换 问题 。 然而, 传统 的 集合 通信 算法 没有 考虑 单机 多 卡 数 据 链 路 的 拓扑 特点 ,一些 逻 辑 上 复杂 度 
较 低 的 算法 在 物理 实现 时 却 有 可 能 造成 PCIe 总 线 竞 争 ， 性 能 反而 不 佳 。 为 了 解决 这 个 问题 ， 
NVIDIA 公司 推出 了 基于 CUDA、 适 用 于 单 服务 器 多 GPU 内 存 的 集合 通信 和 库 NCCL ( https://github. 
comVNVIDIAmccl )， 它 提供 了 一 系列 与 单机 多 卡 数据 链 路 相 适 配 的 集合 通信 函数 。 图 15-5 给 出 
了 NCCL 中 的 broadcast 算法 执行 过 程 示例 。 可 以 看 出 ， 在 实 线 所 示 的 物理 链 路 上 ， 算 法 以 虚线 
所 示 的 环 序 串 行 方式 传播 数据 。 尽 管 其 复杂 度 高 于 树 状 并 行 算法 ， 然 而 能 够 避免 总 线 出 现 拥 塞 。 
为 了 让 TensorFlow 利用 NCCL 技术 加 速 单机 多 卡通 信 , NVIDIA 贡献 了 一 套 集合 通信 操作 及 其 对 
应 的 算法 核 函数 。 它 们 已 被 放置 在 TensorFlow 源 代码 包 的 tensorflow/contrib/nccl 目录 下 。 受 到 
TensorFlow 现 有 的 优化 器 设计 限制 ,，NCCL 尚 不 能 实现 对 已 有 应 用 程序 的 透明 加 速 。 用 户 需 要 修 
改 数据 流 图 逻辑 ， 以 便利 用 这 一 高 效 的 通信 机 制 ， 充 分 发 挥 GPU 内 存 带宽 的 潜力 。 


图 15-5 ”NCCL 中 的 broadcast 算法 执行 过 程 示例 


在 多 机 分 布 式 计算 场景 下 , 集合 通信 同样 是 优化 神经 网 络 算法 的 选项 之 一 。TensorFlow 生态 
系统 中 亦 有 一 些 分 布 式 集合 通信 方面 的 改进 工作 , 这 里 介绍 一 个 allreduce 算法 的 应 用 实例 。 基 于 
环 状 消息 传递 的 ring allreduce 算法 在 高 性 能 计算 领域 具有 和 悠久 的 历史 ， 已 被 MPI 等 通信 库 广泛 
采纳 。 如 图 15-6 所 示 , 该 算法 通过 分 发 - 归 约 ( scatter-reduce ) 和 全 局 收集 (allgather ) 两 个 步骤， 
实现 归 约 计算 任务 的 分 布 式 执行 。 百 度 公 司 研究 团队 开源 的 TensorFlow-Allreduce 项 目 
( https://github.com/baidu-research/tensorflow-allreduce ) 将 这 一 算法 引入 了 TensorFlow。 不 同 于 
Yahoo! TensorFlow-RDMA 那 种 接 入 高 端 硬 件 的 透明 加 速 方 案 ， 这 个 方案 在 TensorFlow 中 引入 了 
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新 的 操作 节点 (MPIA1lreduceOp、MPIAllgatherOp ) 和 优化 器 ( Distributedoptimizer ) 类 型 ， 
并 基于 MPI 库 的 进程 管理 能 力 设 计 了 一 套 分 布 式 运 行 时 机 制 。 用 户 基于 这 些 接口 编写 的 深度 学 
习 模 型 训练 代码 能 够 通过 ring allreduce 算法 实现 高 效 的 参数 通信 和 和 归 约 计算 。 此 方案 应 用 于 带 有 
InfiniBand 网 络 和 GPU 的 集群 环境 时 ，MPI 库 内 置 的 RDMA 通信 及 GPUDirect RDMA 技术 能 够 
进一步 发 挥 硬件 的 潜能 。 不 过 ， 集 合 通信 的 引入 使 得 参数 更 新 过 程 具有 类 似 于 BSP ( Bulk 
Synchronous Parallel ) 模型 的 全 局 同步 特征 ， 这 在 一 定 程度 上 影响 了 程序 的 灵活 性 和 容错 性 。 在 
实际 应 用 中 ， 开 发 者 可 以 依据 算法 的 需求 ， 合 理 选择 分 布 式 通信 框架 。 


将 MPI 库 作为 TensorFlow 通信 框架 使 用 的 第 三 方 项 目 ， 除 了 百度 的 TensorFlow-Allreduce， 
还 有 来 自 美 国 的 西北 太平 洋 国 家 实验 室 (PNNL ) 的 MaTEx-TensorFlow。 该 项 目 是 MaTEx 高 性 
能 机 器 学 习 软 件 包 ( https://github.com/matex-org/matex ) 的 一 部 分 ， 这 个 软件 包 旨 在 利用 高 性 能 
计算 集群 (如 TOP 500 超级 计算 机 ) 加 速 各 类 机 器 学 习 、 深 度 学 习 应 用 。MaTEx-TensorFlow 在 
TensorFlow 的 Python API 层 插入 了 MPI 通信 原 语 ， 包 括 在 Variable 抽象 中 实现 数据 分 发 的 
broadcast 操作 以 及 在 梯度 函数 中 实现 归 约 计算 的 reduce 操作 等 。 它 也 允许 用 户 直接 在 Python 应 
用 层 使 用 封装 过 的 集合 通信 操作 ， 以 便 精确 控制 归 约 计算 逻辑 。 对 于 符合 MaTEx-TensorFlow 约 
束 条 件 的 单机 风格 应 用 程序 ， 用 户 只 需要 插入 必要 的 数据 集 读 取代 码 ， 就 可 以 经 由 MPI 进程 管 
理 器 来 启动 程序 ， 实 现 数据 并 行 的 多 进程 分 布 式 计算 。 对 于 在 高 性 能 集群 环境 中 加 速 既 有 单机 
TensorFlow 应 用 的 需求 ，MaTEx-TensorFlow 不 失 为 一 种 简单 易 用 的 选择 。 官 方 测试 结果 显示 ， 
它 能 够 为 既 有 应 用 带 来 近 线 性 的 并 行 加 速 比 。 不 过 ，MaTEx-TensorFlow 在 编程 方式 上 有 一 定 的 
局 限 性 ， 它 同样 不 是 一 种 对 既 有 应 用 完全 透明 的 通信 优化 方案 。 


分 发 - 归 约 (scatter-reduce) 全 局 收集 (allgather) 
图 15-6 ringallreduce 算法 的 执行 过 程 示例 


可 以 看 出 ,来 自 高 性 能 计算 领域 的 高 端 通信 技术 与 TensorFlow 平台 有 多 种 结合 的 可 能 ' 
不 同 的 方案 各 有 所 长 。 当 前 ， 很 多 互联 网 和 云 计算 公司 已 在 生产 环境 中 引入 了 多 GPU 服务 器 和 
InfiniBand 网 络 等 基础 设施 。 要 想 发 挥 这 类 高 端 硬件 的 潜力 ， 软 件 层 能 力 的 跟 进 是 必要 条 件 。 在 
这 样 的 技术 背景 下 ，TensorFlow 开源 版 本 在 通信 优化 方面 尚 有 广阔 的 发 展 空间 。 
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15.6 TPU 及 神经 网 络 处 理 器 


在 计算 机 科学 的 发 展 史 上 , 每 当 有 新 的 应 用 需求 爆发 时 ,如果 通 用 硬件 的 能 力 不 能 在 短 时 间 
内 以 合理 的 成 本 满足 应 用 需求 ， 往 往 就 会 有 专用 硬件 问世 。 这 个 规律 在 机 器 学 习 、 深 度 学 习 领 域 
也 不 例外 。 近 年 来 ， 人 工 智 能 技术 在 互联 网 、 大 数据 的 推动 下 ， 迎 来 了 新 的 发 展 浪潮 。 面 对 以 神 
经 网 络 训练 和 推理 算法 为 代表 的 计算 需求 ， 现 有 的 CPU、GPGPU 等 通用 计算 器 件 在 性 能 、 性 价 
比 、 能 耗 效率 等 方面 的 劣势 逐渐 显现 。 不 少 商 业 巨 头 和 学 术 机 构 将 目光 转向 了 专用 硬件 研发 。 在 
这 样 的 背景 下 ， 专 用 硬件 也 成 为 TensorFlow 生态 系统 中 举足轻重 的 成 员 。 

Google 公司 自 2015 年 起 ， 在 其 内 部 的 TensorFlow 集群 上 使 用 名 为 Tensor Processing Unit 
( TPU ) 的 定制 化 硬件 运行 神经 网 络 推理 (预测 ) 任务 。 在 2017 年 的 计算 机 系统 领域 顶级 学 术 会 
议 International Symposium on Computer Architecture (ISCA ) 上 ，Google 的 研究 人 员 发 表 了 题 为 
“In-Datacenter Performance Analysis of a Tensor Processing Unit ”的 论文 ， 其 中 介绍 了 TPU 的 部 分 
设计 和 实现 细节 。 在 2017 年 的 Google IO 大 会 上 ， 面 向 云 服 务 场 景 、 同 时 支持 神经 网 络 训练 和 
推理 任务 的 TPU 2.0 版 本 (又 称 Cloud TPU ) 公之于众 。 


TPU 芯片 是 一 种 基于 复杂 指令 集 ( CISC )、 运 行 时 可 编程 的 微 处 理 器 ， 属 于 专用 集成 电路 
(ASIC ) 范畴 。TPU 芯片 以 PCIe 板 卡 形式 连接 到 服务 器 ， 板 卡 上 亦 集 成 了 内 存 (DRAM ) 芯片 。 
对 于 软件 开发 人 员 而 言 ，TPU 的 编程 使 用 模式 与 CPU、GPU 相似 ,具备 一 定 的 领域 内 “ 准 通 用 ” 
特征 , 不 同 于 需要 针对 特定 算法 而 烧 写 程序 的 FPGA。 第 一 代 TPU 的 芯片 布局 如 图 15-7 所 RR ( 
中 方 框 的 位 置 与 面积 大 体 反 映 实际 芯片 的 布局 )， 该 芯片 包含 矩阵 乘法 运算 器 、 统 一 缓冲 区 、 激 
活 流水 线 、 控 制 器 、 累 加 器 ， 以 及 DRAM 接口 和 PCIe 接口 等 单元 。 由 芯片 设计 即 可 看 出 ，TPU 
以 矩阵 作为 基本 数据 元 素 , 以 矩阵 乘法 作为 关键 运算 指令 。 这 一 方面 契合 了 神经 网 络 推理 算法 的 
核心 计算 需求 ， 另 一 方面 也 是 传统 高 性 能 并 行 机 、 向 量 机 设计 思想 的 升华 。 这 一 代 TPU 并 不 通 
过 多 核 来 提升 并 行 性 ， 它 的 并 行 性 设计 类 似 于 向 量 计算 机 : 矩阵 乘法 运算 顺 通 过 一 组 先 人 先 出 
( FIFO ) 队列 从 DRAM 中 并 行 读 取 多 个 数据 ， 在 同一 计算 周期 内 完成 64K 次 累加 。 这 种 设计 使 
得 其 控制 单元 远 比 多 核 CPU 或 GPU 简单 , 仅 占 芯片 2% 的 面积 。Google 宣称 , 使 用 TPU 替代 传 
统 硬件 ， 在 神经 网 络 推理 算法 上 加 速 约 15 ~ 30 倍 ， 能 耗 效率 提升 约 30 ~ 80 倍 。 


HH 


Unified Buffer Matrix Multiply Unit 


(统一 缓冲 区 ) (矩阵 乘法 运算 器 ) 


IHost Interface Accumulator 


(主机 接口 ) (累加 器 ) 


Control Activation Pipeline 


(控制 器 ) (激活 流水 线 ) 
PCIe Interface Misc IO 
(PCIe 接 口 ) (杂项 IO) 


图 15-7 第 一 代 TPU 的 芯片 布局 
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TPU 2.0 则 在 浮 点 运算 方面 做 了 大 幅 增 强 一 一 这 正 反 映 了 神经 网 络 训练 过 程 的 核心 需求 。 这 
一 代 TPU 以 独立 的 “TPU device” 板 卡 形式 部 署 ， 每 块 板 卡 上 集成 4 个 计算 芯片 ， 提 供 高 达 180 
TFLOPS 的 浮 点 运算 能 力 。 多 块 板 卡 协同 工作 时 ， 可 以 构成 TPU pod 部 署 模式 ， 比 单 板 能 够 实现 
的 运算 能 力 有 近 百 倍 提 升 。Google 公司 内 部 的 机 器 翻译 应 用 实例 表明 ，TPU 2.0 的 模型 训练 性 能 
显著 高 于 分 布 式 GPU 集群 。 目 前 ， 两 代 TPU 均 不 对 外 销售 ， 而 是 作为 Google 云 引擎 的 后 台 计 
算 能 力 实现 者 ， 通 过 支撑 PaaS 和 Saag 服务 为 Google 公司 创造 价值 。 


面 对 人 工 智能 与 神经 网 络 处 理 器 的 巨大 湾 在 商机 ，Google 之 外 的 不 少 业界 大 鳄 也 都 蜂拥 而 
至 ， 与 之 相关 的 创业 公司 亦 如 雨后春笋 般 兴 起 。 对 TensorFlow 等 主流 机 器 学 习 、 深 度 学 习 平 台 
的 无 缝 支持 ,往往 会 成 为 这 类 专用 硬件 的 重要 卖点 。2016 年 ，Intel 公司 收购 了 Nervana 一 一 一 家 
在 深度 学 习 算 法 与 芯片 方面 掌握 核心 竞争 力 的 公司 。 随 后 ，Intel 宣布 了 其 人 工 智能 芯片 路 线 图 ， 
其 中 包括 面向 深度 神经 网 络 计 算 的 Lake Crest 家族 ,以 及 与 Xeon 人 处理 器 技术 紧密 结合 的 Knights 
Crest 家 族 。 这 些 处 理 右 将 引入 “基于 张 量 的 架构 ”"， 能 够 为 TensorFlow 等 平台 提供 加 速 支持 。 在 
中 经 网 络 训练 态 加速 领 域 独占 鳌头 的 NVIDIA 公司 也 并 未 放松 对 TPU 的 警惕 ， 该 公司 已 于 2017 
年 宣布 了 对 标 TPU 的 深度 学 习 加 速 器 ( Deep Learning Accelerator，DLA )， 期 望 构建 高 性 能 、 低 
功 耗 的 神经 网 络 推理 态 解决 方案 。NVIDIA 计划 将 DLA 的 设计 开源 ， 可 以 预计 DLA 将 与 
TensorFlow 的 开源 生态 产生 良性 互动 。 


中 国 在 神经 网 络 处 理 器 研发 方面 处 于 相对 领先 的 地 位 。 中 国 科 学 院 计算 技 术 研究 所 在 2014 
年 至 2016 年 发 表 的 Diannao 系列 人 工 智能 体系 结构 论文 ， 在 计算 机 系统 结构 学 术 圈 引起 了 强烈 
反响 。 这 些 成 果 不 但 在 深度 学 习 指 令 集 等 研究 方向 上 开创 了 世界 第 一 , 而 且 在 图 像 处 理 等 应 用 领 
域 取得 了 良好 的 使 用 效果 ,起源 于 该 团队 的 寒 武 纪 公 司 则 致力 于 推动 人 工 智能 芯片 的 产品 化 和 商 
用 化 , 通过 IP 授权 、 芯 片 服务 、 智 能 子 卡 等 解决 方案 支撑 人 工 智 能 技术 融和 人 应 用 场景 。 寒 武 纪 
芯片 的 指令 集 能 够 支持 包括 TensorFlow 在 内 的 计算 引擎 ， 这 在 降低 专用 硬件 使 用 门槛 的 同时 ， 
也 拓展 了 TensorFlow 自身 的 硬件 生态 。 此 外 ， 中 星 微 公 司 发 布 的 “星光 智能 一 号 ”嵌入 式 神经 
网 络 处 理 器 也 实现 了 对 TensorFlow 神经 网 络 模型 的 支持 ， 能 够 应 用 于 视频 监控 等 领域 。 可 以 预 
见 ， 神 经 网 络 处 理 器 的 大 戏 才 刚刚 揭 开 帷幕 ， 未 来 该 领域 还 会 有 更 多 激动 人 心 的 成 果 涌 现 。 
TensorFlow 在 这 个 生态 系统 中 既是 一 个 推动 者 ， 也 会 是 一 个 受益 者 。 


15.7 NNVM 模块 化 深度 学 习 组 件 


近 几 年 , 来 自学 术 界 和 互联 网 公司 的 机 器 学 习 、 深 度 学 习 框 架 层出不穷 。 不 同 框架 通常 具有 
各 自 的 优 热 领域 和 适用 范围 ， 因 此 也 聚焦 了 各 自 不 同 的 用 户 群 体 。 在 日 趋 复 杂 的 应 用 场景 中 ,如 
何 能 够 扬长 避 短 地 使 用 多 种 计算 框架 、 降 低 系 统 部 署 和 学 习 成 本 , 成 为 平台 层 软 件 设计 者 关心 的 
问题 。 同 时 ， 新 兴 应 用 模式 和 专用 硬件 的 涌现 对 计算 框架 不 断 提 出 新 的 需求 ,使 得 计算 框架 开发 
的 复杂 度 持续 增长 。 在 这 种 情况 下， 如 何 提 升 计算 框架 的 开发 效率 、 增 强 计算 框架 对 上 下 层 演 进 
的 应 变 能 力 ， 也 是 一 个 重要 的 工程 课题 。TensorFlow 的 XLA 正在 探索 这 个 方向 。 与 此 同时 ， 开 15 
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源 社区 和 第 三 方 厂商 也 不 甘 示 弱 。 


NNVM (https:/github.com/dmlcnnvm ) 是 DMLC 开源 社区 于 2016 年 年 底 提 出 的 一 套 模块 化 
深度 学 习 组 件 ， 它 期 望 通过 提供 一 种 类 似 于 编译 器 领域 LLVM 框架 的 中 间 表 示 层 ( Intermediate 
Representation )， 将 深度 学 习 平台 的 前 端 编程 接口 与 后 端 硬 件 加 速 机 制 解 耦 。 一 方面 ， 允 许多 种 
编程 框架 的 接口 工作 在 同一 套 运 行 时 核心 之 上 ， 降 低 系统 软件 的 部 署 开 销 和 开发 人 员 的 学 习 成 
本 ; 另 一 方面 ,前 后 端 开发 者 聚焦 于 各 自 关注 的 领域 , 这 有 利于 深度 学 习 平 台 的 定制 化 开发 及 相 
关 生 态 系 统 的 快速 发 展 。 为 了 展示 NNVM 的 能 力 ，DMLC 发 布 了 一 套 模拟 TensorFlow 框架 的 示 
例 性 项 目 一 一 TinyFlow。 它 不 但 展现 了 NNVM 力图 为 深度 学 习 系 统 开发 提供 新 范式 的 雄心 ， 而 
且 为 TensorFlow 生态 系统 注入 了 新 的 设计 思路 。 

图 15-8 给 出 了 TinyFlow 及 NNVM 的 主要 组 件 逻 辑 结构 。 作 为 DMLC 工具 集 的 一 部 分 ， 
TinyFlow 和 NNVM 复 用 了 DMLC Core 的 部 分 组 件 。DMLC Core 是 DMLC 社区 的 公共 基础 开发 
库 , 已 在 MXNet 等 项 目 中 应 用 。 它 包含 一 组 专 为 深度 学 习 需求 设计 的 C++ 数据 结构 与 实用 工具 
类 ,涉及 分 布 式 文件 系统 访问 、 参 数 表 示 与 处 理 、 算 子 注册 与 管理 等 功能 。 在 中 间 层 组 件 分 工 方 
面 ，NNVM 并 没有 包抄 前 后 端的 所 有 抽象 。NNVM 本 身 主 要 关注 计算 图 的 中 间 表 示 ， 它 使 用 同 
样 来 自 DMLC 社区 的 TVM 组 件 实现 张 量 算 子 在 不 同 硬件 平台 上 的 编译 优化 。TVM 借助 一 种 名 
为 HalideIR 的 中 间 表 示 层 表达 代数 算法 的 语义 ， 并 能 够 将 这 些 计算 语义 高 效 转换 为 x86、ARM 、 
CUDA 、OpenCL 等 多 种 后 端 设备 的 原 语 。 


TinyFlow 


TensorFlow API 


Torch wrapper 


NNVM 
NNVMAPI 


Graph Infer Shape 

Note 
Pass Order Place Plan 
Mutation Device Memo’ 


Graph Symbol 


TYV. 


DMLC Core 
图 15-8 TinyFlow 及 NNVM 的 主要 组 件 逻 辑 结 构 


NNVM 以 计算 图 作为 中 间 表 示 层 的 核心 抽象 ， 期 望 提供 统一 的 、 独 立 于 前 端 编 程 接口 和 后 
端 硬件 实现 的 计算 图 表示 、 优 化 和 执行 机 制 。 它 继承 了 现 有 深度 学 习 平 台 以 增加 算 子 方式 获得 应 
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用 层 开发 灵活 性 的 惯例 ， 同 时 借鉴 了 编译 器 领域 “优化 遍 ”( optimization pass ) 的 思想 。 通 过 引 
入 一 组 模块 化 的 pass 函数 , 增加 系统 层 开发 的 灵活 性 并 提升 运行 时 性 能 。 基 于 这 个 思路 , NNVM 
提供 一 套 基于 C++ 实现 的 、 具 有 共性 特征 的 数据 结构 ， 以 及 抽象 为 pass 函数 的 工具 类 。 数 据 结 
构 主 要 包括 Graph、0p、Node 、Symbol 等 计算 图 相关 的 通用 类 型 。pass 函数 主要 涉及 图 上 的 梯 
度 计算 、 形 状 推导 、 控 制 依赖 管理 ， 以 及 图 的 内 存 分 配 和 算 子 的 设备 分 配 等 功能 。 这 些 pass 画 
数 以 独立 功能 模块 的 形式 存在 ， 尚 不 构成 闭环 的 计算 图 优化 和 执行 引擎 。 

TinyFlow 作为 示例 性 项 目 ， 以 NNVM 和 Torch 为 基础 ， 实 现 了 一 套 与 TensorFlow API 子 集 
兼容 的 简化 版 深度 学 习 系 统 。TinyFlow 内 部 使 用 NNVM 定义 的 计算 图 数据 结构 ,基于 Python 封 
装 面向 应 用 开发 的 API， 提 供 TensorFlow 的 Variable、Session 等 基础 抽象 以 及 Gradient- 
DescentOptimizer 等 基础 优化 器 。 由 于 NNVM 不 关注 算 子 的 逻辑 ， 其 图 执行 引擎 也 尚未 成 型 ， 
TinyFlow 为 了 简化 开发 ， 封 装 了 Torch 的 一 部 分 算 子 ， 并 开发 了 面向 Torch 算 子 的 执行 器 与 会 话 
管理 组 件 。 这些 组 件 遵循 NNVM 的 计算 图 编程 范式 , 利用 NNVM 的 内 存 分 配 、 形 状 推导 等 pass 
函数 。TinyFlow 的 初始 发 布 版 本 只 提供 单机 执行 模式 , 尚 不 支持 分 布 式 执行 。 其 总 代码 量 约 2000 
行 ， 远 小 于 TensorFlow。 其 中 半数 以 上 的 代码 是 对 Torch 算 子 的 封装 ， 以 及 执行 器 与 会 话机 制 对 
Torch 的 适 配 。 

NNVM 这 类 中 间 层 技术 的 出 现 ， 从 计算 机 系统 软件 的 发 展 历史 看 具有 必然 性 。 它 为 深度 学 
习 系 统 的 开发 提供 了 模块 化 、 去 中 心 化 的 新 思路 。 尽 管 NNVM 当前 的 设计 和 实现 仍 处 于 起 步 阶 
段 ,然而 我 们 不 能 小 视 这 种 开发 范式 对 深度 学 习 生 态 系统 的 影响 ,在 DMLC 社 区 积极 推动 MXNet 
等 平台 逐步 向 NNVM 迁移 的 背景 下 ,， NNVM 有 望 成 长 壮大 。TinyFlow 作为 一 个 示例 ， 不 仅 是 在 
验证 NNVM 的 能 力 ， 也 是 对 TensorFlow 生态 的 拓展 。TensorFlow 内 部 组 件 耦合 度 较 高 、 发 展 方 
向 受制 于 商业 公司 等 为 人 诉 病 的 问题 ,或 许 会 随 着 中 间 层 、 模 块 化 技术 发 展 和 第 三 方 兼容 实现 的 
出 现 而 得 到 解决 。 


15.8 TensorFlow 未 来 展望 TFX 


TensorFlow 作为 当下 最 热门 的 机 需 学 习 开发 库 ， 其 未 来 发 展 一 直 牵 动 着 全 球 开发 者 的 心 。 与 
Hadoop 和 Spark 等 成 熟 的 大 数据 系统 不 同 , TensorFlow 仅仅 是 一 个 开发 库 。 它 为 用 户 提供 了 灵活 
的 接口 ， 使 得 用 户 可 以 按照 自身 需求 实现 各 种 不 同类 型 的 机 需 学 习 模 型 。 然 而 ，TensorFlow 并 不 
提供 具有 完整 运行 时 框架 的 端 到 端 解决 方案 。 用 户 如 果 想 要 基于 TensorFlow 搭建 一 套 易 用 且 可 
靠 的 机 器 学 习 系 统 , 还 需要 不 少 的 开发 和 适 配 工作 。 类 比 已 有 的 成 熟 系统 ,一 套 完整 的 机 器 学 习 
系统 主要 由 以 下 几 个 模块 构成 : 数据 分 析 、 转 换 和 验证 、 模 型 训练 、 微 调和 评估 ， 以 及 模型 服务 
发 布 和 升级 。 

通常 , 大 多 数 用 户 是 为 某 些 特定 场景 和 需求 而 开发 一 套 机 器 学 习 系统 , 其 中 难免 出 现 许 多 胶 
水 代码 和 适 配 脚 本 ,这 将 使 得 系统 本 身 变 得 更 加 脆弱 。 比 如 ， 新 收集 的 不 符合 规范 的 数据 导致 持 
续 训练 过 程 出 错 , 新 升级 的 模型 准确 率 下 降 导 致 服务 质量 降低 等 。 如 果 用 户 没有 考虑 到 类 似 问 题 
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并 作出 对 应 的 设计 , 那么 将 会 背 上 更 多 的 技术 债 (technical debt ), 这 使 得 普通 用 户 难 以 实现 和 维 
护 一 套 易 用 且 可 靠 的 机 器 学 习 系 统 。 为 了 解决 以 上 的 种 种 问题 , 同时 以 一 种 尽 可 能 通用 的 方式 来 
设计 和 实现 基于 TensorFlow 的 机 还 学 习 系 统 ,Google 公司 提出 了 它们 的 解决 方案 
Extended ( TFX )。 


‘TensorFlow 


Google 在 2017 年 的 SIGKDD 会 议论 文 (TFX: A TensorFlow-Based Production-Scale Machine 
Learning Platform ) 中 正式 介绍 了 他 们 在 TFX 上 的 一 些 工作 进展 。 图 15-9 给 出 了 TFX 的 高 层 组 
件 逻 辑 架 构 。TFX 是 集成 数据 、 模 型 和 服务 模块 的 通用 机 器 学 习 平台 。 平台 中 各 模块 共享 包含 作 
业 管 理 、 监 控 和 调 测 ， 以 及 数据 、 模 型 和 评 佑 指标 可 视 化 的 统一 前 端 ， 使 用 统一 的 环境 配置 和 作 
业 编 排 能 力 ， 共 享 垃圾 回收 、 数 据 访问 控制 和 公共 的 基础 设施 服务 。 相 比 用 户 根据 特定 需求 开发 
的 机 器 学 习 系 统 ,， TFX 一 方面 简化 了 平台 环境 配置 , 减少 了 用 户 自 定义 代码 的 开发 , 加快 了 模型 
训练 和 验证 流程 ; 另 一 方面 有 效 结合 了 TensorFlow 生态 与 大 数据 系统 生态 各 自 优势 ， 缩 短 了 模 
型 服务 发 布 时 间 ， 提 升 了 平台 的 通用 性 和 易 用 性 。 


集成 作业 管理 、 监 控 和 调 测 ， 以 及 数据 、 模 型 和 评 佑 指标 可 视 化 的 统一 前 端 


共 训 平台 环境 忌 置 和 作业 编排 
ee | i | | 异型 训 红 | [oi 最 
| 数据 收集 | 数据 分 析 | | 数据 转换 | 数据 只 证 | | 借 加 和 有 多 发] [日 志 kk 全 | 
其 学 于 表 加 履 和 数据 访问 近 人 


公 基 基础 设施 服务 : 


图 15-9 ”TFX 的 高 层 组 件 逻 辑 架 构 


为 了 展示 TFX 带 来 的 诸多 好 处 和 实际 价值 ， 它 的 作者 在 Google Play 应 用 商店 部 署 了 一 套 
TFX。 每 当 用 户 下 载 或 评论 某 个 应 用 时 ， 新 产生 的 数据 就 会 被 TFX 的 日 志 模 块 收集 。 这 些 数据 
经 过 处 理 后 进入 模型 持续 训练 流程 ， 成 为 新 的 训练 样本 。 经 过 一 段 时 间 的 增 量 学 习 后 , 模型 的 准 
确 率 也 会 得 到 提升 。 同 时 , 使 用 新 模型 升级 的 线 上 服务 的 质量 也 会 不 断 提高 ,促使 用 户 下 载 更 多 
符合 自身 喜好 的 应 用 。 得 益 于 TFX 端 到 端的 数据 、 模 型 和 服务 全 流程 处 理 能 力 ，Google Play 商 
店 的 应 用 装机 数 上 升 了 2 个 百分点 。 

回 望 过 去 ,我 们 不 难 发 现 Google 正在 通过 投入 大 量 时 间 和 精力 ， 在 AI 领域 广泛 布局 。 在 算 
法 模型 和 应 用 服务 方面 ，TensorFlow 已 基本 确立 领导 地 位 和 领先 优势 ; 在 基础 设施 和 运行 时 管理 
方面 ，Kubernetes 已 成 为 容器 编排 领域 的 事实 标准 ; 在 AI 芯片 方面 ，TPU 已 落地 并 同时 支持 端 
侧 推 理 和 云 侧 训练 任务 ; 在 人 才 储 备 和 科学 人 研究 方面 ，Google AI 中 国 中 心 也 已 正式 建立 。 

展望 未 来 ,依托 于 TPU 提供 的 高 效 计算 能 力 ， 以 及 Kubernetes 和 Borg 提供 的 自动 化 调度 能 
力 ，Google 内 部 闭 源 的 TFX 有 望 通过 云 平 台 向 全 球 开发 者 提供 一 站 式 机 器 学 习 服 务 。 经 过 2015 
年 至 2017 年 的 积累 ， 机 器 学 习 框架 已 经 非常 丰富 。2018 年 将 会 是 机 器 学 习 平 台 爆 发 的 元 年 。 我 
们 有 理由 相信 在 Google 的 刺激 和 引领 下 , 全 球 开发 者 将 能 够 体验 到 更 加 便捷 的 机 器 学 习 开 发 环境 
和 模型 服务 运作 模式 ， 而 广大 用 户 也 将 能 享受 到 各 行业 不 断 推 出 的 智能 服务 所 带 来 的 舒适 体验 。 
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15.9 小结 


生态 环境 的 开放 性 是 开源 软件 的 重要 魅力 ， 也 是 其 获得 商业 公司 和 技术 高 手 青睐 的 重要 特 
质 。TensorFlow 就 是 这 样 一 款 高 度 重视 生态 建设 的 开源 软件 ， 它 的 社区 托管 了 大 量 来 自 Google 
公司 和 第 三 方 开发 者 贡献 的 生态 系统 组 件 ， 涉 及 算法 模型 、 实 用 工具 、 运 行 时 环境 支持 等 。 与 
此 同时 ，TensorFlow 团队 对 第 三 方 独 立 维 护 的 衍生 版 本 或 周边 项 目 持 欢 迎 态 度 , 大 量 面向 不 同市 
场 需求 和 应 用 场景 的 TensorFlow 相关 项 目 应 运 而 生 。 在 软件 平台 方面 ，Keras 算法 模型 库 、 
Kubernetes 容器 调度 器 和 TensorFlowOnSpark 生态 对 接 组 件 是 具有 代表 性 的 生态 系统 成 员 ; 在 专 
用 硬件 方面 ，Google 的 TPU 及 国内 外 诸多 广 商 各 自 研发 的 神经 网 络 处 理 器 为 TensorFlow 生态 系 
统 的 扩张 增添 了 筹码 。 随 着 互联 网 、 大 数据 和 人 工 智能 技术 向 各 类 应 用 领域 乃至 人 类 日 常生 活 的 
深入 渗透 ， 我 们 可 以 预见 ， 作 为 核心 计算 引擎 之 一 的 TensorFlow 具有 广阔 的 发 展 前 景 ， 有望 成 
为 一 代 经 典 的 开源 软件 。 


Q: 在 Python 解释 器 中 执行 Import tensorflow 命令 时 出 现 ImportError: No module named 
platform 或 类 似 的 错误 ， 即 无 法 找到 tensorflow 包 内 部 的 模块 。 

A: 这 类 错误 通常 出 现在 编译 安装 并 运行 TensorFlow 的 场景 。 如 果 Python 解释 器 的 当前 工作 
目录 是 TensorFlow 源 代码 目录 ， 其 中 恰好 存在 同 TensorFlow 安装 目录 类 似 的 结构 ，Python 解释 
器 的 模块 查找 就 会 出 现 问题 。 这 种 情况 下 ， 用 户 只 需要 使 用 cd 命令 将 当前 工作 目录 切换 到 其 他 
位 置 ， 重 新 运行 Python 解释 器 即 可 。 


Q: 如 何在 使 用 HTTP 代理 服务 器 的 环境 中 编译 TensorFlow? 我 已 将 代理 服务 器 的 CA 证 书 
导入 操作 系统 和 Java 环境 ， 为 什么 Bazel 仍然 不 能 通过 代理 服务 器 下 载 文件 ? 

A: 在 企业 局 域 网 等 使 用 HITP 代理 服务 器 的 环境 中 编译 TensorFlow 时 ，Bazel 下 载 部 分 第 三 
方 软件 的 过 程 可 能 涉及 访问 HITPS 协议 的 网 站 。 代 理 服 务 器 不 能 提供 有 效 的 SSL 证 书 ， 因 而 会 被 
Bazel 所 调用 的 Java 网 络 客 户 端 认定 为 非法 , 从 而 阻止 下 载 。 针 对 这 种 情况 , 用 户 需要 使 用 支持 SSL 
证 书 动态 伪造 特性 的 HITP 代理 服务 器 。 这 类 HTTP 代理 服务 器 均 会 为 用 户 提 供 一 个 CA 证 书 , 用 
户 需要 将 其 导入 到 客户 端的 信任 证 书 列表 中 .有 经 验 的 读者 可 能 知道 如 何 将 CA 证 书 导 入 Windows、 
Linux 操作 系统 或 Java 环境 , 但 Bazel 的 特殊 之 处 在 于 : 它 默 认 使 用 的 Java 环境 是 一 套 自 带 的 JDK， 
其 信任 证 书 来 自 这 套 JDK。Bazel 的 完整 性 检查 机 制 会 阻止 用 户 对 其 中 的 证 书 进行 修改 。 为 了 解 
决 这 个 问题 ， 用 户 可 以 从 Bazel 官方 网 站 下 载 without-jdk 的 版 本 。 这 种 版 本 的 Bazel 使 用 的 是 当 
前 操作 系统 环境 变量 所 指定 的 Java 环境 。 此 时 ， 用 户 只 需要 调用 keytool 命令 ， 将 代理 服务 器 
的 CA 证书 导入 外 部 Java 环境 , 即 可 使 得 Bazel 正常 访问 HITPS 链接 ,从 而 顺利 编译 TensorFlow。 


Q: 在 阅读 TensorFlow 源 代 码 时 ， 发 现 有 的 地 方 引 用 的 某 些 类 型 、 方 法 或 常量 在 语义 上 明 
显 属于 TensorFlow， 在 源 代码 中 却 无 法 找到 。 它 们 到 底 是 在 哪里 定义 的 ? 


A: TensorFlow 的 源 代码 中 ， 多 处 使 用 了 编译 时 的 代码 动态 生成 机 制 。 例 如 通过 Protocol 
Buffers 和 gRPC 编译 器 ,将 .proto 文件 编译 为 C++ 或 其 他 语言 的 数据 结构 和 通信 接口 层 代码 ; 又 
如 使 用 SWIG 工具 ,将 .i 文件 编译 为 Python 语言 访问 C 或 C++ 库 的 接口 层 代码 。 除 了 使 用 这 些 
外 部 工具 ，TensorFlow 内 部 也 设计 了 一 些 编译 时 代码 生成 机 制 ， 典 型 的 例子 是 生成 以 gen_ 开头 
的 算 子 模块 时 所 使 用 的 自 定 义 Bazel 构建 规则 一 一 tf_gen_op_wrapper_cc。 读 者 在 遇 到 无 法 从 
源 代码 中 找到 某 些 定义 的 问题 时 ， 不 妨 考虑 从 这 些 角度 探索 。 
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一 本 科技 读物 通常 难以 在 理论 、 源 码 和 实践 之 间 取得 平衡 : 理论 过 多 很 难 让 读者 学 以 致 用 并 付 诸 实践 ， 源 码 过 多 容易 让 读者 
望而却步 且 只 见 冰 山 一 角 ， 而 过 于 聚焦 实践 案例 则 难以 帮助 读者 举一反三 ， 参 透 更 高 层 的 设计 理念 与 哲学 。 本 书 却 少 有 地 由 浅 入 
深 ， 既 完整 介绍 了 深度 学 习 和 TensorFlow 的 技术 演化 、 生 态 全 貌 、 设 计 理 念 ， 又 及 时 地 在 一 段 理论 陈述 和 数学 原理 之 后 通过 源码 
层面 的 案例 分 享 帮助 读者 将 理论 落地 。 为 了 帮助 读者 举一反三 ， 知 其 然 还 知 其 所 以 然 ， 本 书 不 光 传 授 了 TensorFlow 技 术 本 身 ， 还 
系统 地 介绍 了 理解 和 掌握 TensorFlow 所 需 的 周边 知识 ， 用 “ 自 包 含 ” 的 方式 为 读者 提供 了 “一 站 式 ” 的 从 入 门 到 精通 的 指引 。 


一 一 张 赛 ， 才 云 科 技 创始 人 兼 CEO 


TensorFlow 是 一 个 深度 学 习 的 基础 框架 ， 自 2015 年 年 底 开 源 以 来 ， 它 被 不 断 应 用 到 各 个 领域 当中 ， 也 逐渐 孕育 出 了 一 个 活跃 
的 开源 社区 。 本 书 的 作者 就 是 这 个 社区 的 贡献 者 ， 他 们 对 TensorFlow 有 深层 次 的 理解 。 本 书 从 独特 的 角度 剖析 了 TensorFlow 和 分 
布 式 TensorFlow 的 运行 机 理 ， 并 以 TensorFlow 1.2 为 基础 ， 用 简单 易 懂 的 语言 讲解 了 TensorFlow 的 安装 、 模 型 编写 、 可 视 化 一 直 
到 生产 环境 部 署 的 方方面面 ， 同 时 穿插 介绍 了 深度 学 习 的 基本 概念 。 该 书 是 作者 的 呕心沥血 之 作 ， 是 一 本 非常 值得 阅读 的 
TensorFlow 中 文书 。 


一 一 周 表 枫 ，Google Brain 资 深 工程 师 

在 深度 学 习 技术 进入 商业 化 实用 阶段 ， 这 本 书 通过 技术 概念 和 实践 案例 讲解 ， 对 广大 Al 技术 爱好 者 深度 了 解 和 应 用 
TensorFlow 技 术 的 本 质 内 涵 、 技 术 框架 和 应 用 体系 提供 重要 参考 ， 值 得 一 读 。 

一 一 夏 命 棱 ， 华 为 人 工 智能 领域 主任 工程 师 


本 书 以 TensorFlow 为 线索 介绍 深度 学 习 的 算法 和 系统 ， 既 包含 算法 的 背景 知识 ， 又 囊括 系统 的 实现 原理 ， 并 给 出 
TensorFlow 中 的 代码 示例 ， 是 综合 算法 理论 和 系统 原理 并 支持 动手 实践 的 佳作 。 


一 一 邹 永 强 ， 云 账户 联合 创始 人 兼 CTO 


当前 人 工 智能 的 发 展 高 度 依赖 数据 、 算 法 和 计算 能 力 三 要 素 。 在 计算 能 力 越 来 越 强 的 今天 ， 数 据 和 算法 成 为 人 工 智能 发 展 的 
两 个 关键 要 素 。 而 作为 人 工 智能 的 核心 算法 ， 深 度 学 习 对 于 技术 工程 师 来 说 依然 迷雾 重重 。TensorFlow 是 深度 学 习 领 域 非常 重 
要 的 开源 框架 ， 基 于 TensorFlow 的 应 用 越 来 越 广泛 地 应 用 到 安防 、 电 商 、 金 融 、 医 疗 等 领域 ， 也 正在 逐步 渗透 到 工业 领域 。 本 
书 从 底层 技术 入 手 ， 深 入 浅 出 地 讲解 了 TensorFlow 的 原理 、 架 构 、 核 心算 法 和 应 用 场景 ， 并 且 展 示 了 其 强大 的 生态 配套 体系 ， 
是 不 可 多 得 的 TensorFlow 学 习 教材 。 未 来 已 来 ， 让 我 们 积极 拥抱 人 工 智能 的 未 来 。 


周公 更 ， 博 拉 科技 创始 人 兼 CEO 


这 是 一 本 来 自 工 业界 技术 专家 的 书 ， 作 者 对 深度 学 习 框 架 和 机 器 学 习 算法 有 多 年 的 深入 研究 ， 对 TensorFlow 在 业界 的 实战 
应 用 有 丰富 的 经 验 和 独到 的 见解 。 本 书 系统 详尽 地 介绍 了 TensorFlow 的 主要 模块 及 使 用 方法 ， 同 时 介绍 了 CNN、GAN 和 
RNN 等 深度 学 习 算 法 模型 和 TensorFlow 的 内 部 核心 模块 。 本 书 一 气 呵 成 ， 深 入 浅 出 ， 每 章 均 配 有 总 览 流程 图 和 详细 的 案例 代 
码 ， 特 别 适 合 工程 师 和 研究 者 入 门 。 


一 一 王 锦 鹏 ， 微 软 亚 洲 研究 院 助理 研究 员 


本 书 由 浅 入 深 ， 详 细 介绍 了 TensorFlow 的 编程 方法 与 工作 原理 。 本 书 在 介绍 深度 学 习 与 TensorFlow 基 本 概念 和 用 法 的 同 
时 ， 深 入 分 析 了 TensorFlow 的 系统 架构 与 实现 原理 ， 是 TensorFlow 开 源 系统 贡献 者 的 重要 参考 资料 。 


一 一 郑 泽 宇 ， 才 云 科技 顾 间 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
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